La regressione è utilissima in statistica per analizzare accuratamente la relazione tra due o più variabili. Esistono moltissimi tipi di regressione (regressione esponenziale, regressione logistica…), a seconda della natura dei dati a disposizione; la funzione di regressione deve infatti riuscire ad adattarsi al meglio ai dati per coglierne la relazione. Sono innumerevoli anche le applicazioni della regressione: medicina, epidemiologia, economia e molto altro ancora.
IN BREVE
Regressione lineare semplice: un primo caso
Il caso più semplice e forse più conosciuto è la regressione lineare semplice; presenta infatti solamente due variabili, di cui quella che vogliamo studiare chiamata “risposta”, e quella che cerca di spiegarla chiamata “esplicativa”. Per “lineare” si intende invece che la funzione di base scelta per sintetizzare la relazione è una semplice retta. Visto che in un piano cartesiano passano infinite rette, l’obiettivo è trovare la migliore retta che passi per i punti del piano. Una retta generica è data dalla formula:
\(\)\[ y=ax+b \]\(\)
dove x ed y sono le due variabili (ad esempio altezza e peso di alcune persone). I due parametri a e b sono invece due coefficienti che caratterizzano una ed una sola retta; in particolare a è detto coefficiente angolare ed indica quanto la retta pende rispetto all’asse x, mentre b è detto intercetta e corrisponde all’ordinata del punto di intersezione della retta con l’asse y. Eccone un esempio con a=1 e b=2.
Proviamo ad analizzare dei dati reali ed a costruirci quello che viene chiamato “modello di regressione lineare semplice”. I dati provengono da un dataset che riporta le seguenti caratteristiche riguardanti 150 iris (un tipo di fiore) di 3 specie diverse: lunghezza e larghezza in centimetri dei petali, lunghezza e larghezza in centimetri dei sepali (delle foglie modificate che fanno parte del calice) e specie del fiore. In basso viene riportato il grafico che mette in relazione la lunghezza dei sepali (asse x) e la lunghezza dei petali (asse y) per tutti e 150 i fiori oggetto di misurazione.
La relazione è nettamente crescente; più sono lunghi i petali, più lo sono anche i sepali, e viceversa. In questo caso, vista la forma della nuvola di punti, è opportuno costruire un modello di regressione lineare semplice, rappresentato dalla retta blu; in questo caso le stime dei due coefficienti della retta stimata sono rispettivamente -7.101 e 1.858.
La retta stimata dovrebbe “catturare” bene la relazione lineare tra i dati, anche se per lunghezze dei petali basse (minori di due cm), in basso a sinistra, c’è una piccola “nuvola” di punti che sembra discostarsi dal resto dei dati. La soluzione del problema in questo caso è piuttosto semplice; come scritto in precedenza, il dataset riporta le caratteristiche di 3 specie differenti di iris, di conseguenza le misurazioni possono variare molto da specie a specie. Vediamo un grafico degli stessi valori ma colorati in maniera differente a seconda delle specie.
Si opta quindi per tre rette di regressione differenti.
L’adattamento delle tre rette è nettamente migliore; ora ciascuna retta interpola bene il rispettivo gruppo di dati.
Regressione parabolica ed esponenziale: altri casi
Come era facilmente intuibile, la regressione lineare non è l’unico tipo di regressione utilizzabile; in particolar modo, la funzione di regressione (che nel caso lineare è una semplice retta) deve essere in grado di adattarsi alla natura dei dati. Il grafico seguente mette in relazione la cilindrata in pollici cubi (asse x) ed il numero di miglia per gallone (asse y) riferiti a 32 modelli automobilistici del 1974.
Anche se a prima vista la relazione può sembrare lineare come nel paragrafo, precedente, se proviamo ad applicare la retta di regressione ci si accorge che l’adattamento è tutt’altro che buono.
Conviene quindi optare per un altro tipo di modello che si chiama parabolico o quadratico.
In matematica, la parabola è una funzione del tipo
\(\)\[ y=ax^{2}+bx+c \]\(\)
dove a, b e c sono i tre parametri che la definiscono. Ecco un esempio con a=2, b=1 e c=-1.
Il ragionamento per la regressione quadratica è il medesimo di quella lineare; anzichè cercare la migliore retta, si cerca la migliore parabola che passa tra i punti facendo variare i 3 parametri a, b e c, trovando i tre coefficienti stimati “migliori”. Ecco il risultato, con i 3 parametri pari rispettivamente a 35.83, -0.1053 e 0.0001255. La parabola in rosso sembra adattarsi ai dati molto meglio rispetto alla retta, anche se a causa di alcuni valori estremi per cilindrate alte non possiamo ritenerci estremamente soddisfatti.
Un altro tipo di regressione è la regressione esponenziale in cui si fa utilizzo ad esempio della classe di funzioni
\(\)\[ y=ae^{bx} \]\(\)
dove a e b sono i soliti parametri ed “e” è il numero di Nepero. Ecco un esempio con a=3 e b=2.
Proviamo ad applicare questo modello ai dati che purtroppo conosciamo bene, riguardo l’aumento (per l’appunto, esponenziale) dei casi confermati di COVID-19 in Italia dal 24 febbraio al 15 marzo (fonte: Protezione Civile).
L’andamento sembra più parabolico che lineare, anche se il modello migliore è quello esponenziale; con i due parametri a e b stimati pari rispettivamente a 263.2518 e 0.229073, l’adattamento sembra buono tranne che per gli ultimi punti.
Regressione non parametrica
L’estensione della regressione semplice è la regressione multipla, che prende in considerazione due o più variabili esplicative (le x). Ci sono però dei casi in cui vengono meno delle assunzioni che sono alla base della regressione “classica” ed è quindi meglio ricorrere ad altre vie. In particolare, si parla di regressione non parametrica quanto la forma della funzione di regressione (che nei casi precedenti era facilmente riconducibile ad una retta o una parabola) non può essere completamente descritta da un insieme finito di coefficienti (parametri). Ciò non implica che non ci siano parametri. Un metodo può essere quello delle spline, ovvero tramite l’utilizzo di alcune funzioni base. Ma quante funzioni base inserire all’interno del modello di regressione? Entra quindi in gioco un classico “trucco” della regressione, ovvero creare una sorta di compromesso tra bontà di adattamento (ovvero “quanto bene” la funzione si adatta ai dati) e numero di parametri (più sono, più sarà complicato il modello). Quindi, chiamando k il numero di coefficienti, tale numero deve essere sufficientemente grande per un buon adattamento, ma non troppo grande da complicare troppo il modello. Vediamo un esempio pratico. Il grafico mostra dei dati simulati dove non sembra esserci alcuna funzione matematica appropriata per rappresentare la relazione tra x ed y.
Tramite una funzione è possibile stimare la funzione di regressione al variare di k. Ecco i risultati per k=2 (alto a sinistra), k=3 (alto a destra), k=10 (basso a sinistra), k=100 (basso a destra).
Per k=2 si ha una retta, per k=3 una parabola. Per un k di media grandezza, ovvero pari a 10, si ha un buon adattamento, mentre per un k molto grande (100) si ha un’eccessiva accuratezza della funzione (chiamata interpolazione) e non si riesce a comprendere l’andamento della stessa. Ricordando ovviamente che un modello con 100 parametri da stimare è improponibile.
Fonte
- A primer on regression splines
McMaster University - Appunti sulla regressione lineare semplice e multipla
Università degli Studi di Milano-Bicocca