Dopo mesi e mesi di lavoro quotidiano dall’inizio della pandemia, io ed il mio gruppo di ricerca, StatGroup-19, siamo arrivati alla conclusione che c’è un’asimmetria – a dire il vero, più di una – nello stato dei dati. Un’asimmetria riguarda la comunicazione dei dati: viviamo oggi in una società in cui l’accesso ai dati, ovvero alle informazioni, conferisce un grande potere, perché permette di condizionare la coscienza delle persone. Lo statistico fornisce con i numeri una fotografia di quello che sta succedendo in un dato contesto, dopodiché i dati vanno interpretati ed è lì che la sensibilità dell’esperienza fa la differenza. Eppure quello che abbiamo visto in questi 18 mesi è che l’interpretazione dei dati troppo spesso è stata approssimativa, e gli statistici, all’inizio, sono stati addirittura messi da parte. Una seconda asimmetria è data dal fatto che tutti noi abbiamo delle convinzioni a priori, che però a volte si scontrano con concetti come quello di causalità, nient’affatto banale, o con la realtà dei dati.
In questi ultimi mesi poi la nostra vita è stata condizionata in modo determinante da decisioni che sono state prese sulla nostra testa: ci siamo dovuti fidare di quello che ci veniva raccontato, ma queste decisioni sono state prese sulla base di stime inaffidabili. Si è verificata un’asimmetria, se vogliamo, tra la fiducia che ci è stata richiesta (o pretesa?) e l’affidabilità dei criteri con cui questa veniva sfruttata.
Per intervenire su questo, noi possiamo e dobbiamo prendere coscienza di quello che ci sta succedendo, innanzitutto essendo consapevoli dei nostri limiti, e poi acquisendo una certa sensibilità ed esperienza quantitativa, quella che permette – per capirci – di stabilire quando una misura è “tanto” o “poco”, abituandoci a porci subito la domanda essenziale: “tanto o poco rispetto a cosa?”. Sembra banale ma avere la sensibilità di porsi tale domanda, e soprattutto di sapersi dare la risposta, non si è dimostrata così scontata, non lo è quando parliamo di numeri di crescita del PIL o dell’inflazione, e non lo è stata nel caso dei numeri del Covid-19.
E invece dobbiamo sempre contestualizzare, tanto più se prendiamo atto del fatto che nel mondo dell’informazione, di cui ci abbeveriamo, si tende a non distinguere tra fisici, matematici, statistici: sono tutti “esperti” alla stessa stregua, e una simile superficialità – altra asimmetria – non giova di certo a chi vuole capirci qualcosa. Mi è capitato di sentirmi dire da un famoso giornalista che “un esperto è qualcuno che ha una laurea scientifica e dice quello che voglio sentire”.
Per farvi capire l’importanza della comunicazione dei dati ho tratto qualche esempio dai telegiornali. Il 9 febbraio 2021 il Tg1 riporta: “sale il numero delle persone che hanno contratto il virus”. Questa è la notizia di apertura che ha il non indifferente effetto di generare paura e preoccupazione. Se si guardano i numeri, il Tg1 non sembrerebbe aver detto una cosa sbagliata perché dall’8 al 9 di febbraio c’è stato un aumento di 2660 casi (dai 7970 del 08/02 ai 10630 del 09/02), pari cioè al 33%.
Quindi la crescita c’è stata, e però – e questa è una lezione che si impara all’inizio di qualsiasi corso base di statistica – guardare i numeri assoluti può essere fuorviante. In questo caso lo è decisamente, perché occorre tener conto di quanti tamponi sono stati fatti nelle due giornate considerate. In parole povere, maggiore è il numero di tamponi che si effettuano, maggiore è, potenzialmente, quello di casi di positività scoperti. Ebbene, il 9 febbraio c’è stato un boom di tamponi, un incremento del 90%, ovvero ne sono stati fatti quasi il doppio rispetto alla giornata del 08/02, e di conseguenza il tasso di positività, cioè il rapporto tra i nuovi positivi e i tamponi effettuati, è passato da 5,5% a 3,9%. Ed infatti, nello stesso identico servizio, il Tg1 riporta anche che c’è un calo del tasso di positività. Hanno fatto un buon servizio? Direi di no, per almeno due ordini di ragioni: in primis perché il messaggio che passa – e questo i professionisti dell’informazione dovrebbero saperlo bene – è quel che viene detto in apertura, e così la notizia di apertura risulta sbagliata per omissione, fuorviante; in secundis perché la seconda parte della notizia, il calo del tasso di positività non viene messa nel giusto rapporto con la prima, per cui l’effetto finale in chi guarda molto probabilmente è, in aggiunta alla preoccupazione iniziale, confusione.
E poi c’è un altro tema: il tasso di positività è il rapporto tra casi positivi e tamponi effettuati, ma… non esiste un solo tipo di tampone! Quello più usato è sicuramente l’antigenico, ancor più dall’entrata in vigore del green pass, poi c’è il molecolare, per il test di conferma, e in generale ci sono i vari tamponi di controllo per verificare l’eventuale negativizzazione.
Mettere insieme tutte queste informazioni così diverse tra loro può essere anch’essa una mossa metodologicamente poco ortodossa e molto fuorviante. Da statistici abbiamo cercato di dividere il tasso di positività netto sui molecolari e il tasso di positività netto sugli antigenici. Un’esigenza ovvia! Talmente ovvia che ci hanno messo più di un anno a fornire i dati divisi per antigenici e molecolari, tanto per rendere facile la vita di chi deve raccontare con i numeri e la loro corretta interpretazione cosa succede nel Paese…
Quando abbiamo guardato i numeri, abbiamo visto che il tasso di positività netto sugli antigenici era irrisorio (0.32% al 08/02, 0.99% al 09/02) mentre il tasso di positività netto sui molecolari iniziava ad essere un numero abbastanza consistente (11% al 08/02, 14% al 09/02). E allora abbiamo riflettuto sulle cause e, pensando a cosa stava accadendo in quel periodo, osservavamo che non c’era un protocollo unico per tutte le regioni: alcune effettuavano tanti tamponi rapidi, altre tanti tamponi molecolari. Le differenze regionali nei tassi di incidenza non erano imputabili solo all’evoluzione dell’epidemia, ma anche, se non soprattutto, a ragioni di politica sanitaria, a seconda di quale fosse l’obiettivo posto dalla regione: ad esempio, se si voleva far risultare basso il tasso di positività – all’epoca il tasso di positività era uno degli indicatori da prendere in considerazione per determinare il sistema dei colori –, era naturale scegliere di far eseguire tanti antigenici così da aumentare il denominatore e abbassare il tasso di positività.
Un altro esempio, ancor più grave dal punto di vista metodologico, riguarda il periodo in cui arrivava la famigerata variante inglese, chiamata B.1.1.7. Immediatamente, per valutare la prevalenza del virus, ci fu proposto un rapporto che chiamarono “seconda indagine flash” – e in statistica tutto ciò che è flash ha una attendibilità prossima a zero. La regione con la prevalenza più alta, al 93.3%, dove cioè esisteva pressoché solo la variante inglese, risultava essere il Molise – e, povero Molise, sui giornali per mesi sembrava che il virus del Molise fosse peggio di quello della Lombardia, ma sappiamo che per fortuna non è andata così. La seconda regione, al 75.0%, era la Sardegna, che in quella fase era l’unica regione bianca in Italia! Strano, no? E poi c’era, dall’altro lato, una regione virtuosissima in cui la variante inglese non esisteva proprio (0.0%): la Valle d’Aosta. Abbiamo detto che bisogna sempre contestualizzare, e allora passi il Molise, ma la Sardegna, l’unica regione bianca, saltava all’occhio per il suo infelice posizionamento. Siamo andati allora a vedere quanti campioni avevamo sequenziato: in Molise 15, che significava aver preso come campione una famiglia, un cluster familiare: verosimile che nel laboratorio che faceva il sequenziamento fossero stati analizzati i casi di persone che erano state a contatto tra di loro. Analogamente in Sardegna erano stati sequenziati 12 campioni. Ma ancora più divertente è il caso della Valle d’Aosta, che è stata fortunatissima, perché poteva avere o il 100% o lo 0% di variante inglese: è stato sequenziato 1 campione!
Poi è arrivata anche la variante brasiliana (P1), e la variante brasiliana – scrivevano loro – aveva, da rapporto, “una chiara espansione geografica” perché abbiamo avuto la fortuna di trovarla in Umbria (36.2%), Toscana (23.8%) e Lazio (13.2%). In Abruzzo no (0.0%), eppure geograficamente fa parte del centro-Italia… Ma questi dati erano appunto scarsamente fondati, perché anche in questo caso il numero di campioni sequenziati era oggettivamente basso (47 per l’Umbria, 80 per la Toscana, 144 per il Lazio, 61 per l’Abruzzo).
I limiti delle analisi non vengono mai raccontati, eppure vengono messi per iscritto e si possono recuperare. Veniva detto, ad esempio, che “il campione richiesto è stato scelto dalle Regioni/PPAA in maniera casuale fra i campioni positivi garantendo una certa rappresentatività geografica e se possibile per fasce di età diverse”, che, tradotto, significa “il campione non è proprio rappresentativo ma più o meno ci siamo”. Bene, se avessi detto qualcosa di simile durante l’esame di “teoria dei campioni”, oggi non parlerei da una cattedra di Statistica. Poi viene detto che “il metodo di campionamento potrebbe essere disomogeneo tra le varie Regioni/PPAA”. Ma come? Nell’analisi dei dati sulla prevalenza della variante brasiliana veniva indicata una “chiara espansione geografica”, ovvero si faceva un confronto tra regioni, sapendo che il metodo di campionamento variava da regione a regione? Dicevano poi che “per alcune regioni, essendo bassa la numerosità della popolazione, il numero di sequenze è esiguo, per cui la presenza di varianti virali circolanti potrebbe non essere individuata” e che “non sono al momento disponibili dati relativi alle fasce di età dei casi selezionati per la survey, alla possibile appartenenza a focolai, e alla geo-localizzazione (potenzialmente utili per valutare con maggiore accuratezza la rappresentatività geografica)”. Sono stati ammessi dunque seri limiti metodologici, il problema è che su questi dati è stata fatta una conferenza stampa che pretendeva di raccontarci il dramma della variante inglese.
Passiamo alla seconda asimmetria, riguardante la percezione che noi abbiamo a priori rispetto ad una realtà data. Per comprendere questo aspetto, è necessario capire prima che cos’è una correlazione. A questo proposito consiglio un libro che si intitola “Spurious Correlations”, dove trovate esempi di questo tipo:
In entrambi i casi le due curve, rossa e nera, sono quasi completamente sovrapposte, il che ci farebbe dedurre che i fenomeni da esse descritti sono assolutamente correlati.
Ecco, nel primo grafico le due linee rappresentano la spesa degli Stati Uniti per scienza, spazio e tecnologia e il numero di suicidi per impiccagione, strangolamento e soffocamento nello stesso arco temporale. Nel secondo grafico gli eventi presi in considerazione sono il tasso di divorzi nel Maine e il consumo pro capite di margarina. Qui è abbastanza ovvio che i due fenomeni non siano correlati (a meno che non pensiate che per non divorziare dobbiate evitare di mangiare margarina), ma il tema è che se io avessi a priori la percezione che invece lo siano, vedrei nel grafico una verifica certa della mia assunzione a priori.
E sottile è poi la differenza che sussiste tra correlazione e causalità, differenza però di vitale importanza per capire la narrazione dei dati Covid-19. La mancanza di consapevolezza della differenza che c’è tra correlazione e causalità porta a titoli di giornale come questo:
dove la presunzione di verità è già un grande errore dal punto di vista del metodo statistico, perché ogni stima, e quindi ogni affermazione che ne deriva, è soggetta ad incertezza, e di fatto l’obiettivo di uno statistico è quello di ridurre il più possibile l’incertezza di una stima. Nel merito l’articolo non è più rigoroso, non solo perché, essendo esso risalente ad un anno fa, è facile vederlo smentito dai fatti, ma anche, e soprattutto, perché non abbiamo mai visto un numero sulla scuola se non a livello aggregato, e definire l’andamento complessivo dell’epidemia nelle scuole italiane è difficile se si lavora con dati aggregati, considerando le differenze regionali, le diverse fasce di età e le altre possibili variabili. E però l’articolo stabiliva un criterio di causalità spacciandolo per assolutamente certo.
Per poter parlare di causa diretta e unica dobbiamo escludere altri possibili meccanismi che possono aver generato i dati che osserviamo e che si riassumono nello schema di seguito:
L’apertura delle scuole avviene all’inizio dell’autunno, ma l’autunno è anche una stagione in cui è più probabile ammalarsi di malattie come l’influenza e simili, e questa coincidenza genera un confondimento. Si può poi supporre un effetto di mediazione, perché può darsi che non sia la riapertura della scuola in quanto tale a causare un eventuale aumento dei contagi, quanto piuttosto ciò che da essa consegue, come i maggiori assembramenti sui mezzi pubblici. Non deve essere per forza così, ma metodologicamente non si può prescindere dalla necessità di indagare per poter confermare o smentire la tesi. E poi vanno messi in conto gli effetti congiunti, perché nello stesso periodo non sono state riaperte solo le scuole ma anche gli uffici, i negozi, ecc.
Insomma, il concetto di causalità non è banale, ed esistono metodi statistici appropriati di inferenza causale, ma servono dati molto più disaggregati. L’assegnazione del Premio Nobel per la Economia 2021 a David Card, Joshua Angrist e Guido Imbens è stata un’ottima notizia che ha segnalato la necessità di investigare il concetto di causalità attraverso i possibili modelli di inferenza causale. Vi faccio un altro esempio legato al Covid-19 (che per me è stato il motivo scatenante di una discussione con l’editor di una rivista che poi alla fine ha ceduto): il 12 maggio 2020 è uscito un articolo su Business Insider:
L’articolo sosteneva che “in Europa esiste una associazione precisa tra bassi livelli di vitamina D e sia il numero di casi, sia il tasso di mortalità. Un giusto apporto dunque sembra permettere contagi inferiori e danni meno severi”. Per inciso, nell’articolo era riportata anche un’intervista ad una persona che aveva interesse a sponsorizzare l’uso di integratori di vitamina D – questo per ricordare che anche nell’ambiente scientifico esistono gli interessi…
Nel grafico, dove si ha sulle ascisse l’apporto medio di vitamina D e sulle ordinate la mortalità, la retta suggerisce un andamento negativo e una correlazione che viene interpretata come causalità, ovvero, secondo lo studio, è l’apporto di vitamina D che riduce la mortalità (“the crude association observed in the present study may be explained by the role of vitamin D in the prevention of COVID-19 infection or more probably by a potential protection of vitamin D from the more negative consequences of the infection”).
Per darvi un’idea della infondatezza di una simile deduzione, sappiate che se in un qualsiasi modello fosse stata inserita l’età media delle persone dei vari Paesi, quindi l’aspettativa di vita, già la vitamina D non sarebbe stata più significativa. E si riscontrano altri problemi di natura tecnica.
- Si aggiustano i risultati per far sembrare che ci sia una correlazione significativa: il valore corretto del cosiddetto p-value è 0.05353 per il test sulla significatività della correlazione tra vitamina D e decessi e 0.05014 per il test sulla significatività della correlazione tra vitamina D e casi, ma in teoria per poter affermare la presenza di una correlazione significativa il p-value dovrebbe essere inferiore a 0.05.
- Le assunzioni alla base del test non sono verificate:
- i dati non sono normalmente distribuiti;
- c’è eteroschedasticità;
- ci sono valori anomali.
- Secondo il modello di regressione lineare, in Slovacchia avremmo avuto -16.04316 morti per milione di abitanti: avremmo dimostrato la possibilità della resurrezione!
Nonostante tutte le criticità, l’articolo ha avuto più di 200 citazioni, la lettera che abbiamo mandato con le osservazioni critiche ne ha avute 3, e lì abbiamo capito una cosa: non importa aver ragione. L’invito è quindi a prestare attenzione a ciò che si legge, soprattutto in una fase come quella del Covid-19 in cui, oltre che dalla pandemia, siamo stati invasi da una vera infodemia: anche riviste prestigiose (Nature, Science, ecc.) hanno pubblicato rubbish, “spazzatura”, almeno dal punto di vista statistico, per la fretta di pubblicare in alcuni casi, o per supportare percezioni a priori, non confermate dai numeri, in altri.
Terza asimmetria: le nostre vite sono state per un periodo in balia del famigerato indice Rt, sembrava che l’unico modo per gestire la pandemia fosse farsi guidare dall’indice Rt. Anche qui la comunicazione è stata fondamentale:
Due giornali, lo stesso giorno, il 28 novembre 2020, titolano con un allarme su Basilicata e Veneto, perché hanno il peggiore Rt in Italia. Giusto, ma la situazione era completamente diversa. Rt non è un semplice conto, è ben più complesso perché viene da un modello teorico sottostante di equazioni del caos. E anche se ora esistono i mezzi per cui basta inserire i dati e premere un bottone per stimarlo, non è meno banale, anche perché, non essendo l’indice Rt direttamente osservabile, quando lo stimiamo, lo stimiamo con un’incertezza, cioè accompagniamo il valore stimato con un intervallo di credibilità che dà la misura della affidabilità della stima stessa. Ebbene, in Veneto avevamo una stima puntuale di 1.23 che poteva oscillare tra 1.15 e 1.29, quindi sì, c’era da preoccuparsi. In Basilicata la stima puntuale era pari a 1.22 ma con un’incertezza molto più ampia, per cui il valore vero poteva essere 1.69, un disastro, come poteva essere 0.74, estremamente positivo: l’allarme era infondato. Il dramma è che le sorti del Paese sono dipese dall’indice Rt secondo il sistema dei colori delle regioni: semplificando, il valore al centro dell’intervallo di credibilità era il valore che veniva considerato per decidere se aprire o chiudere. Dopo un po’ di mesi si sono resi conto che l’indice Rt poteva avere una incertezza eccessiva – guardate, ad esempio, il caso del Molise nel grafico di seguito (si va da 0.50 a 2.30):
E hanno capito che invece di prendere il valore centrale dell’intervallo, per essere un po’ più prudenti, si poteva prendere l’estremo inferiore. Ma il punto è che, da statistico, se vedo un intervallo come quello del Molise (e non solo), il primo pensiero è che ho sbagliato il modello, ovvero che ne ho scelto uno non idoneo ad interpretare i dati osservati, perché una stima del genere non ha alcun significato, è inutilizzabile. Ed è esattamente quello che è successo.
Tenete presente che l’indice Rt può essere stimato in moltissimi modi differenti: colleghi statistici di Palermo e di Firenze, che hanno lavorato su Rt in questi mesi, hanno ottenuto valori diversi da quelli ufficiali. Che cosa è stato fatto? In statistica si usa un software gratuito, che si chiama R, che consente, tramite dei pacchetti, di stimare anche modelli molto complessi. Accade che chi inventa un nuovo modello di ricerca, per renderlo utilizzabile da tutti, anche dai non addetti ai lavori, crea un codice, cioè un algoritmo, in cui basta inserire i dati per avere i risultati.
Teoricamente le regioni potevano calcolare Rt da sole senza dover passare dall’Istituto Superiore di Sanità e dalla fondazione Bruno Kessler. Solo che in una stima così complessa ci sono delle ipotesi, senza il verificarsi delle quali il risultato ottenibile per Rt è del tutto privo di significato. Le tre ipotesi fondamentali riguardano:
- La finestra temporale definita per la stima di Rt: se è troppo ristretta espongo la stima a eccessive variazioni per via delle fluttuazioni dei casi, se è troppo estesa si ottiene una curva che in inglese si definisce smooth, eccessivamente morbida e poco significativa. Nell’articolo originale di Anne Cori viene spiegato un modo per scegliere la finestra temporale migliore. In Italia si utilizzava un intervallo di 7 giorni.
- La distribuzione del numero di nuovi casi. Il numero di casi è una variabile di conteggio, e la principale variabile di conteggio in statistica è la Poisson, per cui si assume una equidispersione: in termini tecnici, media e varianza devono essere uguali. Se non è così, si verifica una overdispersione e le stime ottenute risultano distorte. Si poteva fare di meglio, ad esempio, considerando, anziché la Poisson, la Binomiale negativa, che ne costituisce un’estensione. Perché non si è fatto di meglio? Perché il pacchetto faceva i calcoli per noi.
- Il tempo di generazione, che rappresenta il tempo che intercorre tra un infetto primario e secondario, cioè quanto tempo occorre affinché una persona infetta ne infetti un’altra. Senza il tempo di generazione semplicemente non è possibile stimare Rt, eppure in Italia fino ad oggi è stato stimato – perché anche questo non lo si osserva direttamente – su 90 coppie di casi, 90! Pensate a quanti casi di covid abbiamo avuto nei primi 18 mesi della pandemia, e noi una delle assunzioni fondamentali per il calcolo dell’indice Rt l’abbiamo basata su 90 coppie di casi risalenti a febbraio del 2020 in Lombardia – e non più aggiornata –, e poi abbiamo l’abbiamo fatta valere anche per il Molise! Ecco come si spiega l’intervallo di credibilità così ampio che abbiamo visto per l’indice Rt del Molise.
Ci si rende facilmente conto dell’inadeguatezza del modello adoperato guardando il grafico della distribuzione: secondo gli autori, la linea blu approssima correttamente i dati osservati, rappresentati dalle barre rosa, con buona pace dei vari picchi (mode) che indicano una concentrazione di dati e quindi la possibilità che ci sia un gruppo.
C’era un modo diverso? Sì, anche nel pacchetto del software R è indicato un modo diverso, applicando, anziché una funzione gamma, una funzione non parametrica, cioè “guidata” dai dati. E il problema non si poneva tanto se si voleva studiare, dal punto di vista statistico, l’andamento della pandemia, perché l’aumento o la diminuzione dell’indice Rt la si poteva apprezzare, facendo i confronti nel tempo, anche al netto di questi errori, una volta fissati. Il problema è stato utilizzare stime così mal fondate per definire delle soglie precise, come criteri per il sistema dei colori delle regioni, del tutto incompatibili con gli errori metodologici con i quali le stime stesse venivano calcolate.
Si è trattato evidentemente di una forzatura, se voluta dai politici o dai tecnici non lo sappiamo, ma sappiamo che ogni volta che i tecnici hanno fornito delle informazioni al decisore politico hanno sempre aggiunto un commento che suonava più o meno così: “se non fai così, esplodiamo”. Sic stantibus rebus, non doveva essere facile fare scelte politiche.
Tornando al sistema dei colori, al di fuori delle semplificazioni, c’erano in realtà alla base due processi diversi, uno che guardava il rischio di evoluzione dell’epidemia, e un altro riguardante l’impatto sul servizio sanitario nazionale. Tali processi, fortemente deterministici, sono esemplificati dai due diagrammi di flusso di seguito riportati.
Nel primo diagramma, l’iter è il seguente:
“Sono stati segnalati nuovi casi negli ultimi 5 giorni nella Regione/PPAA?”
- “No” → rischio molto basso (praticamente impossibile)
- “Sì” → “Vi è evidenza di un aumento di trasmissione (presenza di almeno due elementi tra trend di casi in aumento, rt>1 e/o aumento nel numero o dimensione dei focolai?”
- “No” → rischio basso
- “Sì” → “Vi è evidenza di trasmissione diffusa nella Regione/PPAA non gestibile in modo efficace con misure locali (“zone rosse”)?
- “No” → rischio moderato (arancione)
- “Sì” → rischio alto (rosso)
Un metodo del genere non è accettabile dal punto di vista statistico, perché c’è sempre incertezza. Noi dobbiamo calcolare banalmente delle probabilità di rischio, dobbiamo stratificare il rischio; è ovvio che vanno date delle informazioni e delle indicazioni, ma, per dirne una, che differenza c’è tra un RT di 0.999 e un RT di 1.0001? Può essere una discriminante così netta?
Nel secondo diagramma, analogamente, si procede così:
“Sono stati segnalati nuovi casi negli ultimi 5 giorni in soggetti di età > 50 anni nella Regione/PPAA?”
- “No” → rischio molto basso
- “Sì” → “Vi sono segnali di sovraccarico dei servizi sanitari?”
- “No” → rischio basso
- “Sì” → “Vi è evidenza di nuovi focolai negli ultimi 7 giorni in RSA/case di riposo/ospedali o altri luoghi che ospitino popolazioni vulnerabili (anziani e/o soggetti con patologie)?”
- “No” → rischio moderato
- “Sì” → rischio alto
E anche qui, prendendo in considerazione i “segnali di sovraccarico dei servizi sanitari”, le famose “soglie”, di scientifico non c’è niente, tanto è vero che poi sono state modificate, e non solo queste. Non si parla più di Rt, ma di altri indicatori che riguardano quasi solamente la pressione ospedaliera, che – lo ricordiamo – ci dà una fotografia dell’epidemia ritardata di una quindicina di giorni, e quindi ci fa correre il rischio di intervenire sempre più tardi del momento opportuno, anche perché non prendiamo l’incidenza, cioè il numero di casi. E allora uno statistico non può che chiedersi: con i 20 indicatori che abbiamo a disposizione è possibile che non si riesca a mettere in piedi un monitoraggio di dati utilizzando metodologie di statistica multivariata (che sono alla portata degli studenti del secondo anno di informatica)? Possibile che quei 20 indicatori non possano essere sintetizzati con una qualche metodologia condivisa?
Nell’immagine trovate una dichiarazione, riportata il 30 luglio 2021 da adnkronos, di un fisico, noto “esperto” che viene spesso citato da un noto giornalista, che non ha mai fatto ricerca ma si è guadagnato anche una rubrica su un giornale, perché è “esperto”! Lui è – si dice in statistica – esperto di surfing, e quello che leggete nell’articolo è l’esempio del surf: conosco solo un modello, vedo che quel modello sui dati più o meno funziona e allora dò, tronfio, l’annuncio. Un membro del CTS, uno che si occupa di igiene, in quel periodo diceva che a metà agosto 2021 si rischiava un picchio di 40 mila casi, e il fisico il 30 luglio ci regalava il suo pronostico accompagnato dal grafico, dove i puntini rossi sono i dati e la crescita esponenziale, stimata fino al 30 luglio, è rappresentata dalla linea blu. Peccato che la fase di picco di quell’estate è iniziata il 1°agosto: gli ha detto proprio male! Lo statistico, come l’epidemiologo, sa come evolve generalmente un’epidemia: all’inizio si può avere, sì, una fase esponenziale, ma non esiste un solo tipo di esponenziale, i parametri dell’esponenziale possono generare andamenti diversi. Eppure nel primo CTS, tra i vari “esperti”, non ce n’era uno che sapesse gestire i dati, che avesse la sensibilità di esperienze quantitative, quindi, quando si invoca la fiducia negli “esperti”, bisogna in primis verificare che questi esperti lo siano veramente.
Nel paper pubblicato su International Journal of Forecasting il dott. Ioannidis ci racconta che i modelli che si chiamano SIR (Susceptible, Infectious, or Recovered), largamente utilizzati in epidemiologia e non fallaci in sé, hanno però fallito. Ed è vero, perché i modelli SIR funzionano benissimo SE i dati sono di qualità, che non è stato di certo il nostro caso, come abbiamo visto. Sono stati commessi diversi errori metodologici, di natura tecnica, di cui almeno uno va messo in evidenza: le previsioni ad orizzonti temporali irrealistici (anche fino al 2025!).
Lavorando sul problema delle previsioni dall’inizio della pandemia, come altri gruppi di ricerca a Padova, Palermo e Firenze, Alessio Farcomeni, Fabio Divino, Giovanna Jona-Lasinio, Gianfranco Lovison ed io a marzo del 2021 (i tempi di pubblicazione sono abbastanza lunghi) abbiamo proposto un modello che faceva delle previsioni sull’occupazione delle terapie intensive:
In quel periodo, a marzo 2021, alcune regioni avevano grosse difficoltà relative all’occupazione delle terapie intensive, e si cominciavano addirittura a spostare i pazienti dalla Lombardia alla Puglia. Come funziona il modello? Per ogni regione abbiamo l’evoluzione del numero delle terapie intensive giornaliero – si chiama serie storica; se l’epidemia è in una fase di espansione o di recessione ci si aspetta che il numero, per esempio, di oggi sia molto simile a quello di ieri, sfruttando quello che si chiama INAR (Integer-valued Autoregressive). Abbiamo semplicemente detto che quello che osserviamo oggi dipende in una qualche misura da quello che abbiamo osservato ieri. Il limite era che si generavano 20 modelli separati per le regioni, ma queste ovviamente non sono indipendenti, e allora abbiamo costruito un altro modello che si basa sul fatto che il numero di terapie intensive dipende dal tempo – perché c’era un andamento nel tempo – e da fattori specifici delle regioni che non riusciamo ad osservare (caratteristiche del sistema sanitario, di come viene gestito, di come viene cercato il virus, ecc.) – si chiamano variabili latenti.
Abbiamo messo insieme i due modelli facendone una media pesata, denominata “predittore ensemble”:
I risultati:
I punti neri sono i valori osservati, i rossi sono quelli stimati, per tre ragioni (Veneto, Lombardia, Piemonte) tra marzo e aprile 2020. Notate che insieme alla stima puntuale c’è – come deve essere, perché c’è sempre incertezza – l’intervallo di confidenza. Perché questo metodo poteva essere utile? L’estremo superiore di questo intervallo poteva essere usato come campanello di allarme, cioè se l’estremo superiore dell’intervallo fosse stato superiore al numero dei posti disponibili in terapia intensiva, allora sarebbe stato lecito dedurre che forse, con una certa probabilità, si sarebbe potuto avere un problema, in modo tale da riorganizzare per tempo – perché queste previsioni sono, sì, a breve termine, ma fino ad una settimana – le risorse ospedaliere. Ce ne sono stati diversi di modelli come il nostro proposti da statistici, eppure non sono stati nemmeno presi in considerazione. La Società Italiana di Statistica (SIS) ha addirittura promosso una petizione per ribadire l’importanza della statistica nella gestione della pandemia.
L’altra questione riguarda le previsioni dei casi o dei decessi, per le quali il modello di cui sopra non è minimamente adatto, tanto per ribadire il fatto che uno statistico sa che un modello che magari va bene per un certo tipo di outcome, non va bene per altri. E allora abbiamo visto qual era l’andamento delle curve epidemiologiche e abbiamo notato che avevano una forma logistica:
Le due curve sono delle cumulate, ovvero rappresentano la somma di tutti i casi fino ad un dato momento; a destra c’è la curva dei casi giornalieri, che sappiamo che parte bassa, cresce in maniera esponenziale, arriva al picco e torna giù in maniera diversa da come è salita, cioè la velocità con cui sale non è la stessa con cui scende, e questo è un aspetto fondamentale in qualsiasi analisi epidemiologica. Per mesi poi la domanda più frequente era “quando arriva il picco?”: ecco uno dei parametri di questa curva, che si chiama curva di Richards, ci dice proprio il picco. Quello che abbiamo fatto in questo lavoro, dunque, è stato cercare un modello che replicasse le caratteristiche dei miei dati: dovevamo avere una curva che crescesse e decrescesse in modo diverso, e poter prevedere la velocità con cui questo avveniva, dovevamo poi essere in grado di prevedere un picco, ecc.
In conclusione, cosa abbiamo trovato di metodologicamente sbagliato in questi mesi? Credere, per esempio, che un modello possa andar bene per ogni tipo di dato; sostenere che i dati siano sbagliati, laddove il modello non sia in grado di rappresentarli correttamente; ergere a esperto di data analysis chiunque sia in grado di applicare metodologie statistiche (spesso basilari). I dati ci raccontano una storia, noi siamo bravi abbastanza da saperla raccontare? È qui che noi statistici facciamo la differenza.
Testo della relazione alla decima edizione del convegno internazionale “Euro, mercati, democrazia”, dal titolo “Lo Stato delle Cose”, svoltosi a Montesilvano (PE) nei giorni 15, 16 e 17 ottobre 2021.