…ai dati si può far dire quello che si vuole?

Nella scienza statistica, c’è un fenomeno chiamato il Paradosso di Simpson, che può portare a risultati sorprendenti e talvolta fuorvianti. Questo accade quando una relazione tra due fenomeni sembra cambiare o addirittura invertirsi quando analizziamo i dati, a causa di altre variabili che non sono state prese in considerazione (variabili nascoste). Questo errore è piuttosto comune nelle analisi statistiche, specialmente in ambito sociale e medico, ma il suo impatto si estende anche ad altre discipline.

Per capire meglio questo concetto, prendiamo un esempio tratto dal baseball. Immaginiamo di avere due giocatori: Derek Jeter e David Justice. Analizzando le loro performance in due diverse stagioni, sembra che David Justice abbia una media di battuta migliore rispetto a Jeter in entrambe le annate. Tuttavia, quando combiniamo i dati delle due stagioni, il risultato sorprendente è che Jeter ottiene una media di battuta superiore a quella di Justice.

Tratto da “A Mathematician at the Ballpark: Odds and Probabilities for Baseball Fans (Paperback)” di Ken Ross: calcolo della battuta media di 2 giocatori di baseball nel corso di due stagioni. Se il giocatore Justice ha la media di battuta migliore in entrambe le stagioni rispetto all’avversario Jeter, chi avrà la battuta migliore combinando le annate?

Ci sono due giocatori di baseball Derek Jeter e David justice

Durante il 1995 Jeter colpisce 12 su 48 palle = 25% (good)

Justice ne colpisce 104 su 411 = 25,3 % (better)

Justice ha una media migliore di Jeter 25,3%>25%

Durante il 1996 Jeter colpisce 183 su 582 palle = 31,4% (very good)

Justice ne colpisce 45 su 140 = 32,4% (the best)

Justice ha una media migliore di Jeter nel 1996 32,4%>31,4%

Il paradosso sta combinando le due annate:

Jeter (12+183)/(48+582)=(195/630)= 31%

Justice (104+45)/(411+140) = (149/551) = 27%

Pertanto, nonostante Jeter abbia una media di battuta in entrambe le annate inferiore a Justice, la combinata delle due stagioni risulta essere migliore per il primo.

Questo esempio mette in evidenza come i dati possono essere fuorvianti e come una valutazione accurata richieda una comprensione approfondita del contesto e delle variabili coinvolte.

Ricordiamoci sempre di considerare attentamente tutte le variabili rilevanti e di analizzare i dati con un occhio critico per evitare di cadere nelle trappole del Paradosso di Simpson e ottenere conclusioni più accurate e significative. #Statistica #Dati #Analisi

“Nell’era dell’informazione e dei big data, è fondamentale essere consapevoli della potenza e delle sfide che i dati possono presentare. Il Paradosso di Simpson ci ricorda di non trarre conclusioni affrettate basate solo sui dati superficiali, ma di approfondire la nostra comprensione e di considerare tutte le variabili coinvolte. Solo così possiamo sperare di prendere decisioni più informate e giuste nelle nostre attività professionali e nella vita di tutti i giorni.”

https://www.britannica.com/topic/Simpsons-paradox

La farfalla che sapeva innovare

La farfalla della specie “Biston betularia” è diventata il simbolo del concetto di innovazione e di adattamento. In origine questa farfalla era presente soprat- tutto in Inghilterra e riusciva a difendersi dai predatori grazie al suo colore gri- gio chiaro che, essendo identico a quello delle cortecce degli alberi sui quali si posava, la rendeva invisibile ai predatori.

Quando l’inquinamento dovuto alla rivoluzione industriale annerì di smog i tronchi degli alberi, il suo colore divenne una debolezza perché la rendeva fa- cile preda. Il cambiamento del suo ambiente naturale la portò a evolvere pas- sando, di generazione in generazione, da grigio chiaro a grigio scuro acquisendo di nuovo la capacità di mimetizzarsi. Questo è quello che le aziende sono chiamate a fare, ossia accorgersi in tempo di come sta cambiando il mercato e modificare le proprie caratteristiche per rendersi meno vulnerabili rispetto alla concorrenza.

Big Ideas 2021

Report ARK Invest

Deep Learning
Until recently, humans programmed all software. Deep learning, a
form of artificial intelligence (AI), uses data to write software. By
“automating” the creation of software, deep learning could
turbocharge every industry.

The Re-Invention of the Data Center
In the data center, we believe accelerators, dominated by GPUs, will
become the dominant processors for new workloads, growing 21% at
an annual rate to $41 billion by 2030.

Virtual Worlds
Today, virtual worlds are independent from each other, but in the
future they could become interoperable, culminating in what
futurists have deemed ‘The Metaverse.’

Digital Wallets
Today, digital wallets are beginning to penetrate the full traditional
financial services stack, including brokerage and lending. Digital
wallets could serve as lead generation platforms for commercial
activity beyond financial products.

Bitcoin’s Fundamentals
Based on search volumes compared to 2017, bitcoin’s price increase
seems to be driven less by hype. With bitcoin appearing to gain
more trust, some companies are considering it as cash on their
balance sheets.

Electric Vehicles (EVs)
We believe the biggest downside risk to our forecast is whether
traditional automakers can transition successfully to electric and
autonomous vehicles.

Automation
Automation has the potential to shift unpaid labor to paid labor.
For example, as food services automate, they will transform food
prep, cleanup, and grocery shopping into market activities including
food delivery.

Autonomous Ride-Hailing
We believe autonomous ride-hailing will reduce the cost of mobility
to one tenth the average cost of a taxi today, spurring widespread
adoption.

Drone Delivery
Lower battery costs and autonomous technology should
power aerial drones.

Orbital Aerospace
Thanks to advancements in deep learning, mobile connectivity,
sensors, 3D printing, and robotics, costs that have been
ballooning for decades are beginning to decline. As a result,
the number of satellite launches and rocket landings is
proliferating.

3D Printing
3D printing collapses the time between design and production,
shifts power to designers, and reduces supply chain
complexity, at a fraction of the cost of traditional manufacturing.

Long-Read Sequencing
Next-generation DNA sequencing (NGS) is the driving force behind
the genomic revolution. Though historically dominated by shortread sequencing, we believe long-read sequencing will gain share at a rapid rate.

Multi-Cancer Screening
According to ARK’s research, the convergence of
innovative technologies has pushed the cost of multi-cancer
screening down by 20-fold from $30,000 in 2015 to $1,500 today
and it should drop another 80%+ to $250 in 2025.

Cell and Gene Therapy: Generation 2
The second generation of cell and gene therapies should shift from:
• liquid to solid tumors
• autologous to allogeneic cell therapy1
• ex vivo to in vivo gene editing

1 2 3 22