Modo efficiente per unire più dataframe in R

Anthony Kong

2011-08-16 12:49:37 UTC

view on stackexchange narkive permalink

Sto costruendo un frame di big data unendo il contenuto di alcuni file insieme. Questi file condividono lo stesso layout di colonne.

  c = read.delim ('bigfile1.txt') c1 = read.delim ('bigfile2.txt') c2 = read.delim ('bigfile3 .txt ') ctmp1 = merge (c, c1, all = TRUE) ctmp2 = merge (ctmp1, c2, all = TRUE)

Il codice precedente è efficiente?

Dovrei invece riutilizzare lo stesso nome di variabile, ad esempio

  tmp = merge (c, c1, all = TRUE) tmp = merge (tmp, c2, all = TRUE)

Che tipo di efficienza cerchi? Velocità o utilizzo della memoria?

mptiktas: Bella domanda! Prima le prestazioni, poi l'impronta di memoria.

Dubito che avrebbe un effetto serio sulle prestazioni, ma leggerei i file in un elenco quindi userei `rbind` o` cbind` tramite `do.call` per" unire ". In questo modo non avrai oggetti extra in giro.

Se le cose stanno come sospetto (vedi la mia risposta), potrebbe anche essere meglio unire i file al di fuori di R e poi leggerli in: le prestazioni saranno buone e probabilmente puoi evitare la necessità di avere più di 1 file (il quello che stai attualmente aggiungendo al file risultante) in memoria allo stesso tempo.

@Nick: è totalmente d'accordo con il tuo suggerimento. In questo caso particolare ho solo accesso in lettura alla cartella di origine. Ovviamente, potrei copiare i file in una posizione locale e metterli insieme.

Puoi aggiornare la tua domanda con i contenuti di `dput (head (c))`, `dput (head (c1))`, `dput (head (c2))` in modo che le persone possano aggiornare la loro risposta con un codice che funziona? Non penso che i riferimenti a "controlla myFavoriteToolToDoHypotheticalAnalysis" siano così costruttivi per nessuno. Sarebbe un gioco molto più interessante se potessimo effettivamente vedere questi metodi all'opera.

@chase: Ho provato quei comandi. Poiché rivelerà alcuni dei dati sottostanti che sono informazioni proprietarie, probabilmente non posso pubblicarli qui.

Che ne dici di creare dati casuali che duplichino la tua struttura dati? `rnorm ()`, `runif ()`, `sample ()`, ecc. possono essere tutti usati qui. In sostanza, voglio solo qualcosa che attiri risposte più dettagliate rispetto a "controlla data.table, ho sentito che è bello per questa roba" e un esempio riproducibile darebbe alle persone la possibilità di mostrare quanto sia bello XYZ.

@chase. Buon punto. Ci proveremo. R newbie qui quindi non trattenere il respiro. :-)