Indice |
Premessa
Tutti sappiamo che la statistica e la probabilità sono legate tra loro: ma in che modo?
Certamente non sono la stessa cosa, ma spesso vengono interscambiate, il che può creare confusione.
Allora mi sono proposto di fare una breve illustrazione dei due concetti e del loro collegamento, creando un'occasione di ripasso o di prima visione di argomenti dai quali siamo sempre più circondati. Mi sono basato soprattutto su testi anglosassoni in uso nelle scuole superiori, disponibili online, perché mi è parso che avessero il mio stesso obiettivo: mostrare gli argomenti in modo il più possibile semplice, con esempi spiegati nel dettaglio, senza tralasciare né dare niente per scontato, salvo "le quattro operazioni" o poco più.
La maggior parte degli esempi è riportata nell'originale inglese e me ne scuso con chi lo conosce poco (ma chi bazzica l'elettronica e l'elettrotecnica è difficile che non lo conosca per niente). Anche se ritengo che sia un inglese accessibile a tutti, ho spesso inserito tra () la traduzione dei termini meno immediati.
Per evitare articoli troppo lunghi ho suddiviso la presente trattazione in 3 parti:
1. Statistica
2. Teoria (elementare) della probabilità
3. Variabili casuali discrete e continue
Introduzione: Statistica e Teoria della probabilità
Che cos'è la Statistica
- La statistica è la scienza dei dati. Comprende strumenti usati per organizzarli in modi significativi e per analizzarli. La statistica è una metodologia e non una teoria: lo scopo non è quello di spiegare ma di descrivere, analizzare ed eventualmente fornire elementi per assumere decisioni. L’obiettivo è quello di comprendere le caratteristiche di raccolte di dati; ciascuna caratteristica è depositaria di un’informazione che si rapporta all’intera raccolta in esame.
- I dati sono simboli che rappresentano le informazioni raccolte. I dati possono essere qualitativi (per esempio i colori) o quantitativi, descritti tramite variabili (dette anche “caratteri”), che assumono valori qualitativi o quantitativi.
- I dati, sia qualitativi che quantitativi, possono essere discreti o continui e descritti con variabili a loro volta discrete o continue.
- L’insieme (set) dei dati da analizzare ha due definizioni:
- Popolazione (o insieme Universo), se l’insieme comprende tutte le unità statistiche omogenee rispetto ad una caratteristica comune: se ad esempio la caratteristica comune è l'età, le unità statistiche sono tutte le persone di un insieme predefinito, ad esempio quelle che abitano una provincia. Ma il termine "popolazione" si riferisce a oggetti di qualunque tipo, non solo alle persone.
- Campione: se il collettivo in esame costituisce un sottoinsieme della popolazione di riferimento. Tipicamente il campionamento statistico è aleatorio e segue criteri definiti.
- Si parla di variabili semplici il cui oggetto è una sola caratteristica specifica e di variabili multiple — doppie, triple, ecc. — i cui oggetti sono più caratteristiche. Esempi di caratteri su un gruppo o su un campione di persone sono: altezza, età, colore degli occhi, genere, segno zodiacale, credo religioso ecc.
- Una variabile quantitativa discreta ha valori numerici esatti
- Una variabile quantitativa continua può assumere valori numerici la cui accuratezza e precisione dipendono dagli strumenti che li generano.
- Una popolazione (o un campione) viene suddivisa in “unità statistiche”, ossia individui o enti sui quali viene effettuata una rilevazione statistica, raccogliendone dati significativi.
- La statistica ha due accezioni:
- “descrittiva”, che “concerne il trattamento e l’esposizione razionalmente ordinata dei dati relativi a un fenomeno e la loro analisi”; si applica a una popolazione o a un suo campione.
- “inferenziale” (o "induttiva"), che parte da un campione aleatorio (ovvero casuale) per descriverne le proprietà statistiche oppure risalire o inferire al modello probabilistico applicato a una popolazione; questa parte della statistica è collegata più direttamente alla teoria della probabilità.
Che cos'è la Teoria della probabilità
La teoria della probabilità si occupa di fornire modelli matematici ovvero “distribuzioni di probabilità” adattabili ai vari fenomeni aleatori (o casuali) reali, definendo i parametri della variabile aleatoria in questione.
La probabilità è un numero espresso in percentuale (o compreso tra 0 e 1) che viene associato a un carattere collegato a una variabile aleatoria.
Statistica
Statistica descrittiva
La statistica Lo scopo della statistica descrittiva è sintetizzare i dati attraverso strumenti grafici (diagrammi a barre, a torta, istogrammi, etc.) e indicatori statistici che sono di posizione (come la media, la mediana, la moda, etc.), di dispersione (come la varianza e lo scarto interquartile), di concentrazione, di correlazione, di forma.
Altri indicatori si usano nella pratica per descrivere vari contesti come i tassi (di natalità, di mortalità, di immigrazione, di inflazione, etc.).
I dati vengono raggruppati in variabili statistiche dalle quali vengono calcolati gli indicatori.
Strumenti grafici e indicatori descrivono gli aspetti salienti dei dati osservati, formando così il contenuto statistico.
Esempio di grafico statistico per la rappresentazione dei dati raccolti: voti per materie e sesso di una classe di studenti:
Statistica inferenziale
La statistica inferenziale (o "induttiva") utilizza i dati statistici, anche opportunamente sintetizzati dalla statistica descrittiva, per fare previsioni di tipo probabilistico su situazioni future o comunque incerte. Ad esempio esaminando un piccolo campione estratto da una grande popolazione cerca di valutare la frazione della popolazione che possiede una certa caratteristica, ha un certo reddito o voterà per un certo candidato. Le inferenze possono riguardare la natura teorica (la legge probabilistica) del fenomeno che si osserva.
La conoscenza di questa natura permetterà poi di fare una previsione (si pensi, ad esempio, che quando si dice che "l'inflazione il prossimo anno avrà una certa entità" deriva dal fatto che esiste un modello dell'andamento dell'inflazione derivato da tecniche inferenziali). La statistica inferenziale è quindi fortemente legata alla teoria della probabilità.
Sotto questo punto di vista descrivere in termini probabilistici o statistici un fenomeno aleatorio nel tempo, caratterizzabile dunque da una variabile aleatoria, vuol dire descriverlo in termini di densità di distribuzione di probabilità e dei suoi parametri come media e varianza, argomenti sui quali torneremo.
Esempio di inferenza (regressione lineare) dedotta a partire da un insieme di dati.
La retta blu è ottenuta interpolando i dati con un metodo matematico definito, il più conosciuto dei quali è detto “dei minimi quadrati”. Esistono anche altre funzioni di interpolazione, la cui scelta dipende dalla forma della distribuzione dei dati e dagli obiettivi di impiego.
Aspetti generali
Frequenza statistica
Il punto di passaggio tra statistica e Teoria della Probabilità è il concetto di frequenza, che è un concetto diverso da quello a cui siamo abituati in elettrotecnica e in elettronica. Il concetto di frequenza in statistica si applica sia alla statistica descrittiva che a quella inferenziale.
In statistica la frequenza assoluta f è il numero delle volte che un certo “carattere” di fenomeno osservato si presenta. Ad esempio, data una classe di 30 studenti, rappresentiamo il carattere “numero di figli” per famiglia:
I caratteri si possono rappresentare in una tabella oppure in un “istogramma” (diagramma a barre), che è molto intuitivo.
E’ chiaro che, in questo caso, la somma delle frequenze deve essere 30, pari al numero degli studenti.
Quella appena considerata è una popolazione intera (detta anche Universo) e non ha nessuna casualità, nessuna incertezza, nessuna possibilità di errore.
Ma quando la popolazione è molto numerosa e la massa dei dati aumenta considerevolmente, diventa conveniente utilizzare un campione della popolazione, campione che deve essere scelto con criteri tali che lo rendano rappresentativo della popolazione. Ci si avvale allora della statistica inferenziale. Ossia, dall’esame di un campione deduciamo, sia pure con un certo margine di errore, il comportamento dell’intera popolazione. Non trattiamo però dei criteri di scelta del campione, di quanto deve essere ampio per fornire informazioni utili: questo è un capitolo della statistica piuttosto complesso, di cui non è il caso di parlare qui.
Oltre alla frequenza assoluta f, si definisce anche la frequenza relativa, come rapporto
tra il numero
dei casi favorevoli
(associati ai relativi
valori di un carattere) e il numero
totale dei casi osservati.
Nell’esempio appena visto, le frequenze relative sono, per ogni valore del carattere, le seguenti:
Se si passa da una popolazione a un campione, la frequenza relativa diventa probabilità.
Ma prima cominciamo a parlare delle raccolte di dati e alla loro analisi un po’ più in dettaglio.
L'analisi dei dati detta “univariata” coinvolge una singola variabile, ad esempio l'altezza
di tutti gli studenti di una classe. L’analisi bivariata e multivariata, coinvolge due o più variabili statistiche
Cominciamo con l’analisi univariata
Indicatori di posizione (central tendency).
I più usati sono: moda (mode), media (mean) e mediana (median)
Moda: in un insieme di dati, è il dato che compare il maggior numero di volte.
La moda può non essere unica:
3, 5, 5, 7, 9, 9, 2, 1, 8
qui la moda ha 2 valori: 5 e 9.
Quando un carattere è in forma di “fascia di valori” (class) la moda diventa “classe modale” (modal class) come nel caso Times dell’esempio
La moda è costituita da quel/quei carattere/i (o classe/i modale/i) la cui frequenza è più alta di tutte.
Media (mean): con questo termine si intende la media aritmeticadei dati, ossia la loro somma divisa per la loro numerosità. Si indica con la lettera greca μ. La media indica il “punto centrale” (mid point) dell’insieme di dati.
In questo esempio, ogni dato compare una volta (in b il 3 compare due volte, ma viene conteggiato separatamente), ossia la sua frequenza assoluta è considerata = 1.
Se i dati invece vengono suddivisi per frequenza, la formula si “accorcia”, moltiplicando prima ogni valore del dato per la relativa frequenza.
Se ogni suddivisione è una fascia di valori, si usa la media interna alla fascia:
Si tratta quindi sempre di una media “pesata” e il peso è costituito dalla frequenza.
Mediana: la mediana è il valore del dato che sta in posizione centrale, una volta che i dati siano stati ordinati in una successione di valori crescenti. Si indica con “m”.
Se il numero n dell’insieme di dati {an} è pari, si suddivide l’insieme in due metà a1 – ak e ak+1 – an, dove k=n/2 e la mediana è (ak + ak+1)/2. Esempio:
{an} = 1, 3, 8, 7, 4, 9 → 1, 3, 4, 7, 8, 9
n=6, k=3, m = (4+7)/2 = 5,5
Se il numero n è grande, conviene calcolare la posizione della mediana con n(n+1)/2
Nota: mentre la media è influenzata dai valori estremi della successione, la moda e la mediana non lo sono.
Indicatori di dispersione (Measures of dispersion)
Misurano lo scostamento dagli indicatori centrali
I più usati sono: range, quartili (quartiles), Frequenza cumulativa (cumulative frequency), varianza e deviazione standard (variance and standard deviation).
Eccettuata la varianza-deviazione standard, questi indicatori si calcolano dopo aver ordinato i dati in successione crescente.
Range: in una successione crescente è la differenza tra il valore più grande e quello più piccolo.
Es. in 2, 4, 5, 13, 24, 31 il range è 31- 2 = 29
Quartili
- in una successione crescente i quartili dividono i dati in 4 parti (ognuna ampia il 25%), dove i primi 2 quartili sono separati dagli altri 2 dalla mediana.
I quartili danno una sensazione sintetica della distribuzione dei dati.
Ad esempio, considerando le votazioni di un esame per una classe numerosa di studenti bravi:
Se non si conoscono i singoli punteggi, la tabella dice che metà dei punteggi sono sotto 80 e l’altra metà sopra 80. Inoltre, dice che il 50% dei punteggi sono compresi tra 70 e 90. Il range è 35.
La differenza tra il terzo e il primo quartile è chiamata “Range Interquartile” (Interquartile Range o IQR) = Q3 – Q1
Nell’esempio IQR = 90 – 70 = 20
La rappresentazione soprastante è detta “box and whiskers” perché sembra una scatola con baffi.
I valori estremi, distanti almeno 1,5 volte IQR, si chiamano “valori anomali” (outliers).
Frequenza cumulativa: è la somma delle frequenze precedenti a quella del dato in esame.
L’esempio sottostante (importante) è riferito alla durata di un insieme di batterie.
Varianza e deviazione standard (SD): Rispetto a IQR costituiscono una misura più significativa della dispersione di un insieme di dati rispetto alla media μ. Si indicano rispettivamente con σ2 e σ.
La varianza è la media dei quadrati delle differenze tra ciascun dato e la media dei dati. La deviazione standard non è altro che la radice quadrata della varianza. In questo modo ha la stessa unità di misura del dato.
L’elevazione al quadrato ha due vantaggi: dà più peso alle differenze maggiori e rende tutti i termini positivi, evitando la cancellazione rispetto alla media.
Bassi/alti valori di SD indicano che la maggior parte dei dati si discosta poco/molto dalla media.
Indicatori di Correlazione
Un grafico di dispersione o scatter plot è un tipo di grafico in cui due variabili di un set di dati, ad esempio X e Y, sono riportate su uno spazio cartesiano.
I dati sono visualizzati tramite una collezione di punti ciascuno con una posizione sull'asse orizzontale determinato da una variabile (X) e sull'asse verticale determinato dall'altra (Y).
La correlazione è una misura del grado di associazione tra due variabili: è l'unico caso che vediamo qui di analisi bivariata.
In figura esempi di correlazione lineare: positiva e negativa, rispettivamente forte, moderata e debole.
Non bisogna confondere la correlazione con la causalità. Ecco un esempio: Osserviamo che nei giorni di pioggia molte persone portano l’ombrello: c’è un’alta correlazione tra le due variabili. Potremmo aprire un blog di informazione alternativa e dire alla gente di aprire gli occhi, perché c’è un complotto che funziona così: gli ombrelli causano la pioggia e per colpa degli ombrelli che causano la pioggia tanta gente rimane a casa a farsi indottrinare dalla TV di regime. (ovviamente la causalità qui è quella che la pioggia causa il portare con sé l’ombrello). Ci sono anche studi correlazionali che dimostrano una correlazione fra numero di nati in una città ucraina e il numero di cicogne in volo!
Coefficiente di correlazione: è il più importante indicatore di correlazione ed è l'unico che consideriamo qui ed è riportato con la lettera "r".
Il coefficiente di correlazione di due insiemi di dati X e Y si trova con la formula di Pearson. Esso varia tra -1 e +1.
Esempio
Sara vuole determinare la correlazione tra numero di cucchiai di concime vegetale (x) che utilizza e numero extra di orchidee (y) che si ottiene da una delle 4 piante A, B, C, D. Così usa la formula di Pearson per trovare il coefficiente di correlazione e interpretare la relazione tra concime e orchidee.
Un coefficiente di correlazione positivo indica in questo esempio che aumentando il numero di cucchiai di concime aumenta anche il numero di orchidee supplementari. Il valore r di 0,877 indica forte correlazione, ossia relazione abbastanza stretta tra le due variabili.
Conclusione della prima parte
Abbiamo esaminato rapidamente alcuni concetti basilari della statistica molti dei quali si ritroveranno nella Teoria della probabilità, che occuperà la Seconda parte. In essa dovrebbe emergere il legame tra le due discipline, un legame non sempre chiaro, al punto che a volte vengono uniformate o sopvrapposte. Spero quindi che oltre al legame emerga anche la dovuta distinzione. Come si sarà notato, per motivi di semplicità non ho parlato degli indicatori di concentrazione e di forma.