Ho letto informazioni sullo snooping dei dati e su come può significare che l'errore nel campione non fornisce una buona approssimazione dell'errore fuori campione.
Supponiamo che ci venga fornito un set di dati $ (x_1, y_1), (x_2, y_2), ..., (x_n, y_n) $ , che noi tracciare e osservare quella che sembra essere una relazione quadratica tra le variabili. Quindi lo supponiamo $$ y_i = \ beta_0 + \ beta_1 x_i + \ beta_2 x_i ^ 2 + \ varepsilon, $$ dove $ \ varepsilon $ è una variabile che rappresenta il rumore.
Questi dati non sono ficcanaso? Abbiamo lasciato che i dati influenzassero il nostro modello. Quindi quali implicazioni ha questo per i coefficienti $ \ beta_0, \ beta_1, \ beta_2 $ che troviamo; possono essere considerati affidabili per fare previsioni future con diverse variabili di input?
Lo chiedo perché ci sono innumerevoli note / articoli / libri / ecc. sulla regressione in cui si consiglia di guardare i dati e quindi scegliere un modello che sembri che si adatti bene ai dati. Per l ' esempio, qui l'autore ha alcuni dati, prova un modello lineare e, quando lo trova insoddisfacente, passa a un modello quadratico che si adatta meglio ai dati. Allo stesso modo, qui, le persone stanno discutendo delle trasformazioni dei log e il poster originale riceve il seguente consiglio:
Se non esiste una teoria che ti guidi, l'esplorazione grafica del file relazione tra le variabili, o guardando adattato vs osservato i grafici in entrambi i modi ti diranno quale modello è appropriato.
Quindi, quando basiamo il nostro modello su un'osservazione dei dati tracciati, questi dati sono ficcanaso o no? In caso contrario, qualcuno potrebbe fornire una spiegazione del motivo per cui questo non è lo spionaggio dei dati?
Se si tratta di spionaggio di dati, allora:
- Quali sono le conseguenze di ciò sulle prestazioni fuori campione?
- Cosa dovremmo fare per evitare / superare il problema dello spionaggio dei dati in un modello di regressione in modo da ottenere buone prestazioni fuori campione?