Sono per lo più d'accordo con la risposta di @ PeterFlom. Secondo me, non dovresti fare la media dei tuoi dati (stai sostanzialmente buttando via 2/3 delle tue informazioni, perché dovresti farlo?), Ma dovresti assolutamente tenere conto del fatto che le misurazioni sullo stesso paziente tenderanno a essere più vicini tra loro rispetto alle misurazioni su pazienti diversi. In una situazione del genere, di solito raccomando modelli lineari misti, che sono una semplice istanza dei modelli multi-livello consigliati da @PeterFlom.
In particolare, useresti un modello misto lineare generalizzato. La funzione di collegamento sarebbe logistica, come nella regressione logistica "ordinaria". Tuttavia, la forma funzionale includerebbe più osservazioni su ciascun partecipante, modellate da un effetto casuale, proprio come nei modelli misti lineari "ordinari", $ y∼F (Xβ + Zγ) $. In R, puoi inserirlo con glmer () nel pacchetto lme4, utilizzando la famiglia binomiale. Per la previsione, potresti utilizzare una singola misurazione.
Se un modello misto predice o meno meglio di un modello non misto in una particolare impostazione è difficile da dire, ovviamente. Ciò che fa il modello misto è tenere conto della variabilità intra-persona. Se fai semplicemente la media dei tre punti dati originali, perdi tutta la variabilità tra le misurazioni, quindi sarai troppo ottimista sulla tua capacità di prevedere da una singola nuova osservazione.
Se, d'altra parte, tu inserisci semplicemente tutte le osservazioni senza tenere conto del raggruppamento, sarai di nuovo troppo ottimista, poiché tutti gli errori standard si ridurranno. Pensa a cosa accadrebbe se iniziassi con una singola osservazione per partecipante, diciamo 100 punti dati ... e poi copiassi semplicemente ogni osservazione 100 volte. Ti ritroveresti con 10.000 "osservazioni" ed errori standard molto più piccoli rispetto ai dati originali, anche se non hai inserito alcuna nuova informazione.
Inoltre, i modelli misti consentono di modellare altri fattori di raggruppamento, come la posizione, i dati demografici specifici, il personale, le caratteristiche dei diagnostici e così via, quindi sono molto più generali della media.