Il bootstrap è un metodo ideato da Bradley Efron nel 1979 ed ha scopo di stimare caratteristiche della distribuzione di probabilità di uno stimatore o, più in generale, di una statistica di interesse. Si applica in moltissimi ambiti quali serie storiche, epidemiologia, statistica inferenziale ed è un vero e proprio mondo all’interno della simulazione statistica di dati.
IN BREVE
Bootstrap: a cosa serve?
Il bootstrap è un metodo ideato dallo statistico statunitense Bradley Efron nel 1979 che ha lo scopo di stimare determinate caratteristiche di uno stimatore o di una distribuzione in generale. Da non confondere con le bootstrap table (tabelle bootstrap), della libreria Bootstrap Italia, che servono a creare interfacce web. Per comprenderne meglio il significato è necessario fare un passo indietro per qualche nozione basilare di statistica inferenziale. Una distribuzione di probabilità è una funzione che, per un determinato esperimento casuale (che può avere diversi esiti possibili) assegna ad ogni possibile esito una probabilità. Esistono molte variabili di questo tipo a seconda della natura dell’esperimento: ad esempio se viene lanciata una moneta regolare esiste una variabile casuale che si chiama Bernoulliana che assegna ai due esiti possibili Testa e Croce una probabilità pari a 1/2 (ovvero il 50%), quindi P(T)=1/2 e P(C)=1/2. Se invece lanciamo n monete regolari a 6 facce c’è un’altra variabile che si chiama Binomiale e così via. È di fondamentale importanza per comprendere al meglio il principio di base della statistica inferenziale, ovvero quella parte di statistica che si occupa di analizzare i dati ottenuti da un campione della popolazione per stimare una quantità sull’intera popolazione di riferimento. Ad esempio, se lo scopo è di stimare il peso medio degli abitanti adulti di Milano, si procede per campione per ovvi motivi di praticità. La variabile “peso” segue una distribuzione di probabilità Normale, che ha una determinata media (l’oggetto di studio) e varianza. Per stimare la media reale, uno dei migliori stimatori è la semplice media aritmetica del campione; si può dire quindi che questo stimatore, chiamato anche media campionaria, descriva piuttosto bene la vera media (che è incognita ed impossibile da sapere esattamente).
In generale, visto che gli stimatori di una quantità sono un’approssimazione del valore reale della stessa, possono presentare alcuni problemi, principalmente di correttezza, ovvero lo stimatore in media non “centra” bene il parametro oggetto di stima. È proprio a questo che servono degli altri elementi che “accompagnano” il valore puro dello stimatore, come gli intervalli di confidenza, che indicano un range di valori plausibili attorno alla stima ed i test, che servono a verificare se la stima si discosta significativamente da un valore fissato. Per entrambe le cose serve conoscere la distribuzione dello stimatore, che può non essere nota. Il bootstrap serve proprio a questo.
Un primo esempio di applicazione
L’idea di base del bootstrap è la seguente. Supponiamo, nell’esempio del peso, di voler fare inferenza sul parametro “media campionaria”, non conoscendo la sua distribuzione. Logicamente, se ho raccolto solo un campione di dimensione n, potrò calcolare solamente una media campionaria, quella sul campione raccolto. Molto frequentemente però questa stima non è così affidabile ed effettuare altri campioni sulla popolazione spesso è troppo costoso e dispendioso in termini di tempo. Quindi si cerca di estrapolare più informazione possibile dall’unico campione a disposizione. Per aggiungere la variabilità che la singola stima non ci permette di avere, si procede con il campionamento con reinserimento, che consiste nel creare degli altri campioni, sempre di dimensione N, composti da valori presi a caso dal campione originale, anche ripetuti. Ad esempio, se un campione originale di dimensioni N=6 è:
\(\)\[ y=(20, 10, 45, 70, 35, 55) \]\(\)
un primo campione “bootstrap” può essere
\(\)\[ y\ast=(10, 20, 55, 35, 70, 45) \]\(\)
un secondo può essere
\(\)\[ y\ast=(45, 35, 55, 20, 70, 55) \]\(\)
e così via si simulano B (numero molto grande) campioni bootstrap (alcuni valori possono essere ripescati, come il 55). Naturalmente questo è il lavoro che svolge un software. Poi calcolo le B media campionarie su ognuno dei B campioni simulati e grazie a queste medie bootstrap studio la distribuzione “simulata” della media. Ad esempio, nel campione originario la media campionaria è
\(\)\[ \mu=\frac{20+10+45+70+35+55}{N}=\frac{235}{6}\simeq39.17 \]\(\)
che è uguale per il primo campione bootstrap, mentre per il secondo campione bootstrap è
\(\)\[ \mu\ast=\frac{45+35+55+20+70+55}{N}=\frac{280}{6}\simeq 46.67 \]\(\)
In seguito il grafico della distribuzione simulata con B pari a 3000; la figura in giallo rappresenta la distribuzione simulata tramite bootstrap della media campionaria, che sembra essere abbastanza simmetrica attorno al valore della media campionaria “originaria”, ovvero circa 39.17, raffigurata dalla linea rossa verticale. Essendo n piccolo, pari a 6, la bontà della simulazione può non essere molto buona.

Esempio di distorsione
Nella statistica differenziale l’obiettivo di studio è un parametro, ovvero un’importante caratteristica di un insieme di dati; può essere l’altezza media della popolazione della Lombardia o il tempo mediano di attesa in un ufficio. Come è ben comprensibile, è impossibile conoscere il vero valore del parametro, quindi, procedendo per campione, si cerca di stimarlo tramite stimatori, ovvero funzioni del campione, come la media, la mediana il valore minimo o massimo. Una delle principali proprietà di cui deve godere uno stimatore è la correttezza; uno stimatore si dice corretto se ha come valore atteso (media) proprio il valore che stima. Ad esempio, si suppone di avere un campione di n dati provenienti da una curva normale con media ignota e varianza nota, in formula
\(\)\[y_1,…..y_n \sim N(\mu,\sigma^2) \]\(\)
uno stimatore della media può essere la media campionaria, ovvero
\(\)\[ \hat\mu=\frac{y_1+y_2+…+y_n}{n} \]\(\)
e si tratta di uno stimatore corretto in quanto
\(\)\[ media(\hat\mu)=\mu \]\(\)
Se uno stimatore non è corretto, allora si dice distorto.
Supponiamo di avere un campione di n=1000 valori da una normale con media 0 e varianza 5 e di ricavare la distribuzione bootstrap della media campionaria, supponendola ignota, mentre in teoria segue una normale di media 0 e di varianza 5/1000. Il grafico sottostante confronta la distribuzione bootstrap (in verde) con quella teorica (rossa).

Nonostante n sia molto grande, la distribuzione simulata non segue per niente quella teorica in media. Ma un motivo c’è. In questo caso la media campionaria presenta una piccola distorsione: infatti, se la media teorica è pari a 0, quella del campione è pari a -0.0572 e questo risultato ricade pesantemente anche sulle stime bootstrap, che appaiono appunto distorte in media. In basso il grafico delle stime bootstrap corrette, ottenuto semplicemente aggiungendo la piccola distorsione.

Bootstrap lisciato
Esiste un metodo per cercare di “lisciare” la distribuzione bootstrap che spesso è troppo irregolare nella sua forma, per via della sua natura casuale, ovvero il bootstrap lisciato. Ne esistono diversi, come quello del kernel (“nucleo”) che si basa sulla distribuzione normale. Ecco un esempio. Quella rossa è la densità bootstrap, mentre la curva blu è il lisciamento adattato.

Il lisciamento dipende da un parametro che chiamiamo per comodità h, che indica il grado di lisciamento della funzione. L’h ottimale viene calcolato automaticamente dal software e deve essere un compromesso tra lisciamento e forma della funzione. In altre parole, non deve seguire troppo fedelmente la densità ne lisciare troppo.
L’h ottimale in questo caso era 0.1750, rappresentato dalla precedente figura. Se invece si fa variare il parametro h e lo si pone pari a 0.1, si vede che la curva blu segue troppo le “imperfezioni” della distribuzione e quindi non effettua una buona approssimazione.

Se invece si alza il parametro h fino a 0.27 si ottiene l’effetto opposto, ovverosia il lisciamento è troppo accentuato e non tiene minimamente conto dell’andamento impreciso della distribuzione rossa. Se scegliessimo come parametro bootstrap 4, molto probabilmente la curva blu sarebbe ancora meno adeguata.

Fonte
- Bootstrap Methods and Applications
Queensland University of Technology - OPTIMIZING THE SMOOTHED BOOTSTRAP
Texas A&M University