Come si progetta intenzionalmente una rete neurale overfitting?

Rahn

2020-06-30 13:51:20 UTC

view on stackexchange narkive permalink

Per avere una rete neurale che funzioni perfettamente sul set di addestramento, ma scarsamente sul set di convalida, cosa dovrei fare?Per semplificare, consideriamolo un compito di classificazione CIFAR-10.

Ad esempio, "nessun dropout" e "nessuna regolarizzazione" sarebbero utili, ma "più livelli" non necessariamente.Mi chiedo anche: la "dimensione del batch" e la scelta dell'ottimizzatore fanno la differenza sull'overfitting?

Niente "garantisce" l'overfitting.Se ci fosse qualcosa di simile, semplicemente non lo useremmo durante la costruzione delle reti neurali.

@Tim: non sarebbe sufficiente aggiungere enormi quantità di dati totalmente casuali?

@StephanKolassa potresti approfondire?

Aggiungi molte funzionalità completamente casuali alla tua rete.A meno che tu non sfoltisca / regolarizzi, la tua rete si attaccherà alle correlazioni spurie e farà sempre meglio in allenamento.E peggio nel test / convalida.Puoi persino overfit sul set di test, è solo una questione di setacciare abbastanza dati casuali.[Vedi qui.] (Https://stats.stackexchange.com/a/474623/1352)

@StephanKolassa Immagino, questo porta la domanda: cosa è "consentito" per renderlo overfitt?Ad esempio, l'utilizzo di etichette casuali in fase di treno, ma quelle corrette in fase di test funzionerebbero.

@StephanKolassa la mia esperienza dice che la semplice aggiunta di più livelli / canali di solito non migliora le prestazioni di allenamento.

Non sto parlando di aggiungere strati.Sto parlando di aggiungere dati di input casuali.

@StephanKolassa Presumo che tu intenda aggiungere ulteriori caratteristiche / attributi di input, piuttosto che campioni di addestramento aggiuntivi (dati di input casuali potrebbero significare entrambi)?

@DikranMarsupial: sì, [come ho scritto] (https://stats.stackexchange.com/questions/474738/how-do-i-intentionally-design-an-overfitting-neural-network?noredirect=1#comment876505_474738), "completamentecaratteristiche * casuali * ".

@StephanKolassa Cita che questo rovinerebbe effettivamente le prestazioni di una rete neurale?Ti colleghi a te stesso facendo la stessa affermazione.

Per quanto riguarda la dimensione del lotto, penso che l'uso di lotti più grandi aiuti il sovraadattamento.Ci sono alcuni risultati sperimentali che mostrano che la varianza nei gradienti stocastici gioca una sorta di effetto di regolarizzazione.Quindi, con lotti di grandi dimensioni, riduci la varianza.Ad ogni modo, ottenere un buon addestramento ma una cattiva accuratezza di convalida è banale: memorizzare semplicemente il set di dati di addestramento?

Non sono sicuro delle reti neurali, ma usando un albero decisionale senza profondità massima potresti sicuramente overfit

@AleksandrDubinsky: Non sono un esperto di reti neurali, motivo per cui lo suggerisco come commento, non come risposta, quindi non ho un riferimento.Mi collego a un'altra mia risposta come illustrazione, poiché ho molta familiarità con ciò che ho scritto io stesso.

@StephanKolassa Sono abbastanza sicuro che la magia dei modelli NN è che evitano di fare proprio questo.Questo è ciò che li rende eccezionali con dati ad alta dimensione.Tuttavia, sarebbe un esperimento molto interessante.Suppongo che più caratteristiche spurie in ogni campione, più grande dovrebbe essere il modello per regolarizzarsi sulla varianza aggiuntiva.

@AleksandrDubinsky: potresti avere ragione.Sospetto che questa magia derivi dalla regolarizzazione / potatura / abbandono che di solito viene applicata automaticamente e che OP ha pensato di disattivare.

@StephanKolassa È più fondamentale.Anche senza dropout, i molti neuroni inizializzati in modo casuale eseguono un insieme.Dropout, SGD, ecc. Lo migliorano ma non sono cruciali.Ma ancora una volta, sarebbe un'ottima ricerca.

Per i lettori come me che lottano per capire cosa sia esattamente l'overfitting (nonostante l'ampio folklore), [questa risposta] (https://stats.stackexchange.com/a/281474/86176) può essere utile.

Memorizzazione

Per un overfitting assoluto, vuoi una rete che sia tecnicamente in grado di memorizzare tutti gli esempi, ma fondamentalmente non capace di generalizzazione. Mi sembra di ricordare una storia su qualcuno che formava un predittore del rendimento degli studenti che ha ottenuto ottimi risultati nel primo anno ma è stato un fallimento assoluto nell'anno successivo, che si è rivelato essere causato dall'utilizzo di tutte le colonne di una tabella come caratteristiche, incluso il colonna con il numero sequenziale dello studente, e il sistema è semplicemente riuscito a imparare che ad es lo studente # 42 ottiene sempre buoni voti e lo studente # 43 ha un rendimento scarso, il che ha funzionato bene fino al prossimo anno, quando un altro studente era # 42.

Per una prima prova di concetto su CIFAR, potresti fare quanto segue:

Scegli un sottoinsieme di campioni CIFAR per il quale il colore del pixel nell'angolo in alto a sinistra risulta essere diverso per ogni immagine e utilizza quel sottoinsieme come dati di addestramento.

Crea una rete in cui il primo livello seleziona solo i valori RGB dell'angolo in alto a sinistra e ignora tutto il resto, seguito da uno o due livelli completamente collegati di larghezza comparabile fino al livello di classificazione finale.

Addestra il tuo sistema: dovresti ottenere il 100% sui dati di addestramento e quasi casuale sui dati di test.

Dopodiché, puoi estenderlo a un sistema orribilmente overfitting per l'intero CIFAR:

Come prima, filtra i dati in arrivo in modo che sia possibile identificare ogni singolo elemento nei dati di addestramento (quindi un singolo pixel non sarà sufficiente) ma in modo che sia decisamente impossibile risolvere il problema effettivo da quei dati. Forse i primi dieci pixel nella riga superiore sarebbero sufficienti; forse qualcosa dai metadati, ad es. l'ID immagine, come nello scenario delle prestazioni degli studenti.

Assicurati che non ci sia regolarizzazione di alcuna forma, nessuna struttura convoluzionale che implichi indipendenza traduttiva, solo livelli completamente connessi.

Allenati fino al 100% di precisione di allenamento e piangi per l'inutilità del sistema.