Le serie storiche (o in inglese “time series”) sono uno strumento utilissimo in statistica per visualizzare l’andamento di una variabile statistica nell’arco di un periodo temporale ben definito. Utilizzate in molti ambiti quali economia, medicina e climatologia, possono servire sia per modellare la variabile, che per effettuare delle previsioni.
IN BREVE
Serie storiche: esempi “famosi”
Una serie storica è semplicemente una registrazione cronologica di un certo fenomeno in un determinato periodo di tempo. Possono essere usate in svariati ambiti, come vedremo tra poco. La loro analisi ha lo scopo di studiare l’andamento del fenomeno preso in considerazione per modellarlo tramite vari tipi di modelli di regressione ed ipotizzare delle previsioni. Pur inconsciamente, ne incontriamo quotidianamente; ecco alcune delle serie storiche più “famose” che sicuramente molti di voi avranno già visto. La prima è una delle serie storiche climatiche tristemente note e descrive il cambiamento medio della temperatura globale dal 1850 al 2020 secondo cinque diverse organizzazioni scientifiche (NASA GISS, HadCRUT 4.6.0.0, NCDC NOAA, JAPAN METEOROLOGICAL OFFICE, BERKELEY EARTH). Come si può facilmente notare, il trend crescente a partire dal 1975 circa è preoccupante, specialmente perché le previsioni per i prossimi decenni sono tutt’altro che positive.
Una seconda serie storica riguarda invece la demografia e descrive l’evoluzione demografica in Spagna dal 1900 al 2007 (fonti: Instituto Nacional de Estadística). L’interpretazione della serie storica è piuttosto semplice; si ha un andamento crescente che sembra lineare fino al 1990, poi la curva si assesta per poi ripartire con pendenza maggiore dal 2000.
La terza ed ultima serie storica introduttiva è purtroppo tristemente nota a tutti e descrive il tragico momento che stiamo vivendo. Si tratta del numero di morti dichiarati COVID-19 in Italia dal 24 febbraio 2020 al 10 novembre 2020 (fonte: Protezione Civile). Da un netto trend esponenziale, si raggiunge verso aprile un andamento logaritmico per poi rimanere più o meno stabile da metà giugno ai primi di settembre. La crescita piuttosto netta di fine ottobre ed inizio novembre non ci lascia però tranquilli.
Stagionalità: un elemento di disturbo
Esistono alcune serie particolari che vengono dette serie storiche stagionali o cicliche (o, a volte, serie storiche mensili) che sono affette dai cosiddetti “effetti di calendario”; i valori del fenomeno, per fattori climatici, sociali, ecc…, tendono a ripetersi nello stesso periodo dell’anno. Un classico esempio è la vendita di panettoni; è insensato confrontare il numero di panettoni venduti a giugno ed a dicembre di uno stesso anno. È più opportuno infatti confrontare il numero di panettoni venduti a dicembre dell’anno x, a dicembre dell’anno precedente e così via. In basso viene riportata in rosso una serie storica (dal 1958 al 2017) trimestrale; viene “suddivisa” quindi in quattro trimestri: dal primo trimestre (da gennaio a marzo) fino al quarto trimestre (da ottobre a dicembre).
Come si vede chiaramente, l’andamento è fortemente stagionale e tale componente tende ad offuscare l’andamento reale della serie. Visto che è molto interessante confrontare i valori di ogni trimestre e non i valori “complessivi”, un modo per destagionalizzare la serie (eliminarne la componente stagionale) è quello delle medie mobili.
Una media mobile di una serie (y) è un’altra serie storica (y2) il cui elemento i-esimo è composto dalla combinazione lineare delle osservazioni più vicine all’elemento i-esimo di y. Facciamo un esempio.
Per destagionalizzare una serie storica trimestrale, come quella in rosso, si usa una media mobile di ordine 5 (con 5 termini); vale a dire che per calcolare ad esempio il decimo elemento di y2 bisogna fare la media pesata delle 5 osservazioni più vicine del decimo elemento di y, vale a dire y(8), y(9), y(10), y(11), y(12). In formula:
\(\)\[ y2(i)=\frac{1}{8} \cdot [y(i-2)+2 \cdot y(i-1)+2 \cdot y(i)+2 \cdot y(i+1)+y(i+2)] \]\(\)
Per motivi matematici, in questo caso la media mobile y2 “perde” i primi 2 valori e gli ultimi 2 valori della serie originaria y.
Ecco il risultato ottenuto.
I valori della serie originali sono in rosso (Effettivi) mentre quelli della serie storica destagionalizzata tramite media mobile sono in blu (Stime). Sono scomparse le oscillazioni stagionale della serie in rosso ed ora è molto più facile comprendere il trend vero e proprio della serie senza influenze stagionali.
Previsioni: c’è da fidarsi?
Naturalmente uno dei principali obiettivi dello studio delle serie storiche è quello di riuscire a prevedere l’andamento futuro del fenomeno oggetto di studio, come per le serie storiche economiche, le serie storiche finanziarie, le serie storiche epidemiologiche e via dicendo.
Un esempio riguarda una serie che va dal 1969 al 2018, in rosso.
L’obiettivo è prevedere gli ultimi valori del 2018; l’output del software GRETL è il seguente (grafico zoomato sugli ultimi anni per motivi di praticità).
La serie storica originaria è in rosso, mentre la previsione è in blu. L’area grigia invece sta a delimitare l’intervallo di incertezza della previsione. Si tratta di un elemento di fondamentale importanza perché sta a delimitare il range di valori plausibili per tale previsione; il che è molto più significativo del valore “puro” in blu. Quando in questo periodo di pandemia ascoltiamo delle previsioni (di qualsiasi natura) è bene badare anche a quell’intervallo di incertezza, perché potrebbe essere così ampio da rendere la previsione del tutto inaffidabile. Nel grafico in alto l’intervallo è fissato al 95%, il che significa, semplificando molto, che la previsione ammette un certo errore fissato al 5%.
Correlazioni spurie: attenzione!
Ci sono infine alcune serie storiche che possono trarci in inganno nella loro interpretazione. Al seguente link https://tylervigen.com/old-version.html è possibile trovare una serie di “spurious correlations”, vale a dire “correlazioni spurie” (“spurio” significa “falso”, “fittizio”). Le serie storiche presentate mettono in correlazione due quantità del tutto disgiunte logicamente, ma presentano una perfetta relazione nel tempo. Ecco alcuni esempi.
La prima coppia di serie storica confronta il tasso di divorzi nello stato Americano del Maine (in blu) con la consumazione pro capita di margarina negli Stati Uniti (in rosso) dal 2000 al 2009.
La seconda coppia di serie storica va a confrontare il numero di lanci spaziali non commerciali in tutto il mondo (in blu) ed il numero di Dottorati in sociologia assegnati negli Stati Uniti (in rosso) tra il 1997 ed il 2009.
Il terzo grafico invece confronta il numero di persone che sono annegate cadendo in una piscina negli Stati Uniti (in blu) con il numero di film in cui è apparso Nicolas Cage (in rosso) tra il 1999 ed il 2009.
È chiaro che in tutte e tre le coppie di serie storiche è presente una netta relazione “matematica” tra le coppie di variabili, mentre dal punto di vista logico non esiste alcuna correlazione. Sarebbe irrealistico pensare che il numero di apparizioni nei film di Nicolas Cage influisca sul numero di morti in piscina o che consumare meno margarina faccia diminuire il tasso di divorzi nel Maine. Tutto ciò sta a dimostrare una delle frasi più importanti e significative della statistica, vale a dire “correlazione non implica causalità“; in altre parole, due eventi possono essere fortemente legati matematicamente, pur non essendo presente alcun nesso causale tra di loro. Ad esempio, con l’aumento delle vendite di gelati (evento X), aumenta il tasso di morti per annegamento (evento Y). Tranquilli, il consumo di gelati non provoca alcun annegamento; specialmente entra in gioco un terzo fattore, ovvero la temperatura (evento Z), che influisce sia su X (più fa caldo, più gelati vengono venduti) che su Y (più fa caldo, più aumenta il numero di persone in mare, con conseguente maggior rischio di annegamento).
Fonte
- What is a Spurious Correlation?
University of Canterbury - L’approccio classico per l’analisi delle serie storiche
Università di Firenze