La simulazione di dati è una delle innumerevoli applicazioni della statistica. Si simulano vari tipi di dati ed esistono diverse applicazioni in questi termini. In questo articolo viene presentato il metodo Monte Carlo, uno dei più famosi e semplici metodi di simulazione, assieme alle sue applicazioni.
IN BREVE
Metodo Monte Carlo: a cosa serve?
Per simulazione statistica si intende un’insieme di tecniche statistiche che hanno come scopo la creazione di un numero fissato di dati di una specifica natura. Ad esempio generare 1000 lanci di monete o le altezze di una popolazione di un milione di persone. Quello che può a prima vista sembrare un semplice “gioco” fine a se stesso, in realtà serve in numerosi ambiti. Il metodo Monte Carlo è probabilmente, tra tutti i metodi di simulazione, il più conosciuto: si basa su un’algoritmo numerico e restituisce un determinato numero di valori casuali che seguono una determinata distribuzione di probabilità (si veda l’articolo sulla curva normale). È bene tenere a mente che per avere un risultato soddisfacente devono essere verificate alcune assunzioni fondamentali che stanno alla base di qualsiasi tecnica di simulazione.
- efficacia: i dati simulati devono seguire effettivamente la distribuzione di probabilità di partenza. In genere per verificare tale assunzione si confrontano i dati generati con quelli “teorici”, in termini di indicatori sintetici. Ad esempio, se vengono simulati 1000 lanci di una moneta regolare, il numero atteso di teste è 500. Il numero di teste presenti nei dati simulati non deve discostarsi significativamente da quello atteso;
- numerosità campionaria: più che un’assunzione, si tratta di una condizione necessaria per assicurare il punto precedente. È logico che più grande è il campione di dati simulato, maggiore è la bontà delle sue stime e quindi seguirà più fedelmente la distribuzione di partenza. In seguito verrà presentato un esempio;
- indipendenza: i dati, nonostante vengano generati automaticamente da un calcolatore, devono essere per l’appunto casuali, ovvero privi di qualsiasi andamento regolare o sistematico. In caso contrario l’assunzione è chiaramente violata. Esistono svariati test statistici, come il test chi quadrato, per verificare l’indipendenza (o incorrelazione) del campione.
Una prima applicazione: la stima di pi greco
Il pi greco è probabilmente la costante matematica più conosciuta ed affascinate di sempre; pari a 3,14159…. (è un numero irrazionale ad infinite cifre decimali) è il rapporto tra una circonferenza ed il suo diametro. È possibile stimare tale valore tramite il metodo Monte Carlo, vediamo come. Prendiamo un quadrato di lato pari a 2 cm con al centro una circonferenza (iscritta) di diametro pari a 2 cm, quindi di raggio 1 cm. Dividiamo la figura ottenuta in quattro parti uguali e consideriamo solo il primo quadrato in alto a destra. La figura ottenuta è la seguente, un quadratino di lato 1 cm (la metà di 2 cm) ed un quarto di circonferenza di raggio 1 cm.
L’area del quadratino sarà uguale alla misura del suo lato alla seconda, ovvero
\(\)\[ A_{quadrato}=l^2=(1cm)^2=1cm^2 \]\(\)
mentre l’area del quarto di circonferenza (area verde) è pari all’area della circonferenza intera diviso 4, ovvero
\(\)\[ A_{verde}=\frac{1}{4} \cdot A_{circonferenza}=\frac{1}{4} \cdot \pi \cdot r^2=\frac{1}{4} \cdot \pi \cdot (1cm)^2=\frac{\pi}{4}cm^2 \]\(\)
Di conseguenza, la probabilità che un punto simulato a caso nel quadratino cada nella parte verde è pari all’area verde diviso l’area del quadratino, ovvero
\(\)\[ p=\frac{A_{verde}}{A_{quadrato}}=\frac{\frac{\pi}{4}cm^2}{1cm^2}=\frac{\pi}{4} \simeq 78,54\% \]\(\)
È possibile utilizzare il metodo Monte Carlo in R, il programma statistico usato nei paragrafi precedenti. Simulando molti valori bidimensionali (come i puntini in figura) all’interno del quadratino, si ottiene quindi una stima di /4, che basta moltiplicare per 4 per ottenere . In questo caso è facilmente intuibile che al crescere del numero di puntini generati aumenta anche la bontà della stima di . Questa tipologia di applicazione serve in generale anche per calcolare la aree di figure piane o per stimare degli integrali definiti, per questo il metodo si chiama “integrazione con metodo Monte Carlo”.
Secondo caso: uno strano compleanno
Uno dei più interessanti ed affascinanti paradossi del mondo statistico-probabilistico è senza dubbio il paradosso del compleanno. Dice infatti che prendendo solo 23 persone a caso, la probabilità che almeno due persone siano nate lo stesso giorno dell’anno è circa il 50%, incredibilmente più alta di quanto ci si aspetti. Il paradosso assume che tutti i giorni dell’anno siano equiprobabili, anche se nella realtà non è così, poiché ad esempio a settembre ci sono più nascite che a gennaio. Ebbene, per dimostrarlo uno dei modi è proprio il metodo Monte Carlo. Viene infatti simulato un grande numero di vettori da 1 a 365, ne vengono campionati 23 (o un numero maggiore, o minore) ed a seconda del numero di persone campionato viene calcolato in media quanti valori da 1 a 365 sono ripetuti, ovvero quante delle 23 o più persone compiono gli anni lo stesso giorno. Ecco un grafico esplicativo del problema.
Sull’asse x (in basso) viene riportato il numero (n) di persone campionate, mentre sull’asse y (in verticale a sinistra) c’è la probabilità che almeno due delle n persone campionate abbiano in comune il giorno del compleanno. Quando n=20 la probabilità è circa 0.4 o 40%, il 50% è raggiunto circa a n=23 mentre per gruppi di appena 40 persona la probabilità è già altissima (90%). I punti neri presenti nel grafico sono simulati tramite il metodo Monte Carlo, usando ben 10000 campioni. Come si può facilmente vedere, il grafico non è perfettamente “liscio” però la curva stimata ottenuta dalla congiunzione dei puntini sembra approssimare bene una curva di probabilità, che cresce al crescere del numero di persone coinvolte.
Un esempio di bontà
Come già detto precedentemente, più dati si simulano, più il campione ottenuto è fedele alla distribuzione di partenza. Eccone un piccolo esempio. Vengono confrontati i valori stimati da una distribuzione normale (in istogramma grigio) con la curva teorica della normale (curva nera). La numerosità del campione cresce da sinistra a destra: 10 valori, 50, 100, 500, 1000, 5000. Come si può facilmente notare, più il campione diventa grande migliore è l’approssimazione alla curva a campana.
Simulazione di una normale: precisione ed accuratezza
Ipotizziamo di simulare 1000 valori bidimensionali (ovvero su un piano cartesiano (x,y), come nel caso di pi greco, seguendo più o meno la stessa logica della battaglia navale) che provengono da una distribuzione normale standard, ovvero con media 0 e varianza 1. Il risultato è il seguente, dove i puntini neri sono i 1000 valori simulati e le rette azzurre sono le assi x ed y.
Come si può vedere, c’è un’alta concentrazione di valori vicino all’intersezione delle due rette, ovvero il punto (x=0, y=0) e ciò è in linea con il fatto che entrambe le distribuzioni da cui simuliamo (due normali standard) hanno media 0, che è il valore più probabile. Man mano che ci si allontana si nota una frequenza sempre meno marcata e ci sono alcuni valori anomali (o outliers) che sembrano discostarsi molto dalla nuvola di punti. È importante sottolineare che in una distribuzione normale standard la maggior parte dei valori (circa il 95%) compresa tra i valori -1.96 e 1.96, approssimati talvolta per comodità ai valori -2 e 2; quindi all’interno dell’intervallo [-2, 2] è contenuto circa il 95% dei valori. Il risultato è facilmente intuibile dal grafico; dal momento che ci troviamo in situazione di bidimensionalità, l’intervallo non è più rappresentabile tramite come prima, ma sarà chiaramente un quadrato che si ottiene congiungendo le rette x=-2, x=2, y=-2, y=2, colorate in verde. È presente quindi un minimo di consueta variabilità. È qui che entrano in gioco due concetti molto importanti: quelli di precisione ed accuratezza, i cui significati vengono spesso confusi. L’accuratezza indica infatti quanto una misura è vicina al valore teorico (è il concetto di “assenza di distorsione”), mentre la precisione indica quanto ripetibili sono i risultati; una simulazione precisa darà quasi lo stesso risultato ogni volta che viene utilizzata. Ecco un’immagine esemplificativa.
Una simulazione è ottima quando si ottengono precisione ed accuratezza (immagine a destra), mentre se viene meno solo l’accuratezza si hanno valori distorti, lontani dal “bersaglio” (a sinistra) e se viene meno solo la precisione (al centro) si hanno valori non fedelmente riproducibili.
Altre applicazioni possono esistere in campo ambientale, dove vengono simulati gli impatti dell’inquinamento del diesel rispetto alla benzina o in ingegneria dell’affidabilità, per prevedere l’impatto di un terremoto o di un altro evento su un edificio. Può essere inoltre sfruttato per previsioni meteorologiche o astrofisiche.
Fonte
- La simulazione Monte Carlo: appunti integrativi
Università degli studi di Padova - Applications of Monte Carlo
Rand