Qual è il PDF per la differenza minima tra un numero casuale e un insieme di numeri casuali

Steven Sagona

2019-12-15 10:35:53 UTC

view on stackexchange narkive permalink

Ho un elenco (chiamiamolo $ \ {L_N \} $ ) di N numeri casuali $ R \ in (0,1) $ (scelto da una distribuzione uniforme). Successivamente, lancio un altro numero casuale dalla stessa distribuzione (chiamiamo questo numero "b"). Ora trovo l'elemento nell'elenco $ \ {L_N \} $ che è il più vicino al numero "b" e trovo questa distanza.

Se ripeto questo processo, posso tracciare la distribuzione delle distanze ottenute attraverso questo processo.

Quando $ N \ to \ infty $ , qual è l'approccio di questa distribuzione?

Quando simulo questo in Mathematica, sembra che si avvicini a una funzione esponenziale. E se l'elenco fosse lungo 1 elemento, credo che questo seguirebbe esattamente una distribuzione esponenziale.

Guardando wikipedia per le distribuzioni esponenziali, posso vedere che ci sono alcune discussioni sull'argomento:

Ma non riesco a interpretare ciò che dicono qui. Cosa significa "k" qui? Il mio caso è quello che descrivono qui nel limite in cui $ n \ to \ infty $ ?

EDIT: Dopo una risposta intuitiva molto utile di Bayequentist, ora capisco che il comportamento come $ N \ to \ infty $ dovrebbe avvicinarsi a una funzione delta di dirac. Ma mi piacerebbe ancora capire perché i miei dati (che è come il minimo di un mucchio di distribuzioni esponenziali), sembrano anche essere esponenziali. E c'è un modo per capire cos'è esattamente questa distribuzione (per N grande ma finito)?

Ecco un'immagine di come appare una tale distribuzione per N grande ma finito:

EDIT2: Ecco un po 'di codice Python per simulare queste distribuzioni:

 % matplotlib inline
importa matematica
importa numpy come np
importa matplotlib come mpl
importa matplotlib.pyplot come plt
numpoints = 10000
NBINS = 1000
randarray1 = np.random.random_sample ((numpoints,))
randarray2 = np.random.random_sample ((numpoints,))

dtbin = []

per i nell'intervallo (len (t1)):
    dt = 10000000
    per j nell'intervallo (len (t2)):
        delta = t1 [i] -t2 [j]
        se abs (delta) < abs (dt):
            dt = delta
    dtbin.append (dt)

plt.figure ()
plt.hist (dtbin, bins = NBINS)
plt. mostra ()

L'esponenziale può essere un'approssimazione ragionevole, ma la tua distanza minima non sarà certamente distribuita in modo veramente esponenziale: l'esponenziale ha un supporto illimitato, ma la tua distanza è limitata tra 0 e 1.

Sono abbastanza confuso in questo momento: / Puoi condividere anche il codice che hai usato per generare questa immagine?

Va bene, ho aggiunto del codice Python che può produrre quelle immagini.

Mi sembra che converga nel delta di Dirac.Hai provato campioni di dimensioni maggiori (100k, 1m, 10m ...)?(assicurati che l'intervallo dell'asse x sia coerente) L'unica differenza tra il mio codice e il tuo è che consenti alle distanze di essere negative.Se prendi il valore assoluto delle distanze la tua trama sembrerà la mia.

Inoltre, il numero di b (chiamiamolo nSim) non deve essere grande quanto N!Se si imposta anche nSim = N = 1m, l'esecuzione del codice richiederà un'eternità.Puoi provare a correggere nSim = 10k e osservare come la distribuzione cambia forma quando N passa da 10k a 100k.

Per affrontare la tua modifica, guarda (1) l'intervallo sul tuo asse x e (2) il fatto che @Bayequentist utilizza la differenza assoluta mentre stai usando la differenza effettiva.Se usi la differenza assoluta, otterrai la stessa forma di Bayequentist e guardando l'intervallo del tuo asse x, stai guardando ** numeri molto ** piccoli proprio come sono.

C'è un aspetto della domanda che non è veramente chiaro.Scrivi: "Se ripeto questo processo" ... Ma, quando ripeti il processo, mantieni il valore di $ b $ che è stato generato o generi un nuovo $ b $ ogni volta?Sembra che tu intenda il secondo - puoi confermare per favore.

@wolfies, Genero ogni volta un nuovo valore di b.Puoi vederlo nel codice di simulazione: io genero due elenchi casuali.Quindi per ogni elemento nella seconda lista, trovo la distanza minima tra tutti gli elementi nella prima lista e un elemento nella seconda lista.Quindi raccolgo ciascuna delle distanze ottenute in questo processo.(Ed è quello che sto tracciando come PDF simulato)

(A Bayequentist e duckmayr): Sono d'accordo con entrambi.Il valore assoluto non fa molta differenza nel problema, e la funzione dovrebbe avvicinarsi a una funzione delta per infinitamente grande N. Ma quello che stavo cercando di capire era come potevo capire il PDF per un tale sistema, e ho creato ilerrore nel pensare che sarei soddisfatto di una risposta che mostra il limite del pdf per N infinitamente grande, mentre avevo davvero bisogno di N. finito ma grande Scusa se un tale perno fosse un bersaglio mobile, ma spero che la discussione estesa sia utilealtri futuri lettori.