…ai dati si può far dire quello che si vuole?
Nella scienza statistica, c’è un fenomeno chiamato il Paradosso di Simpson, che può portare a risultati sorprendenti e talvolta fuorvianti. Questo accade quando una relazione tra due fenomeni sembra cambiare o addirittura invertirsi quando analizziamo i dati, a causa di altre variabili che non sono state prese in considerazione (variabili nascoste). Questo errore è piuttosto comune nelle analisi statistiche, specialmente in ambito sociale e medico, ma il suo impatto si estende anche ad altre discipline.
Per capire meglio questo concetto, prendiamo un esempio tratto dal baseball. Immaginiamo di avere due giocatori: Derek Jeter e David Justice. Analizzando le loro performance in due diverse stagioni, sembra che David Justice abbia una media di battuta migliore rispetto a Jeter in entrambe le annate. Tuttavia, quando combiniamo i dati delle due stagioni, il risultato sorprendente è che Jeter ottiene una media di battuta superiore a quella di Justice.
Tratto da “A Mathematician at the Ballpark: Odds and Probabilities for Baseball Fans (Paperback)” di Ken Ross: calcolo della battuta media di 2 giocatori di baseball nel corso di due stagioni. Se il giocatore Justice ha la media di battuta migliore in entrambe le stagioni rispetto all’avversario Jeter, chi avrà la battuta migliore combinando le annate?
Ci sono due giocatori di baseball Derek Jeter e David justice
Durante il 1995 Jeter colpisce 12 su 48 palle = 25% (good)
Justice ne colpisce 104 su 411 = 25,3 % (better)
Justice ha una media migliore di Jeter 25,3%>25%
Durante il 1996 Jeter colpisce 183 su 582 palle = 31,4% (very good)
Justice ne colpisce 45 su 140 = 32,4% (the best)
Justice ha una media migliore di Jeter nel 1996 32,4%>31,4%
Il paradosso sta combinando le due annate:
Jeter (12+183)/(48+582)=(195/630)= 31%
Justice (104+45)/(411+140) = (149/551) = 27%
Pertanto, nonostante Jeter abbia una media di battuta in entrambe le annate inferiore a Justice, la combinata delle due stagioni risulta essere migliore per il primo.
Questo esempio mette in evidenza come i dati possono essere fuorvianti e come una valutazione accurata richieda una comprensione approfondita del contesto e delle variabili coinvolte.
Ricordiamoci sempre di considerare attentamente tutte le variabili rilevanti e di analizzare i dati con un occhio critico per evitare di cadere nelle trappole del Paradosso di Simpson e ottenere conclusioni più accurate e significative. #Statistica #Dati #Analisi“
“Nell’era dell’informazione e dei big data, è fondamentale essere consapevoli della potenza e delle sfide che i dati possono presentare. Il Paradosso di Simpson ci ricorda di non trarre conclusioni affrettate basate solo sui dati superficiali, ma di approfondire la nostra comprensione e di considerare tutte le variabili coinvolte. Solo così possiamo sperare di prendere decisioni più informate e giuste nelle nostre attività professionali e nella vita di tutti i giorni.”