Pillole di Statistica

I dati

I “dati” si rappresentano in varie forme: testo, immagine, video, suono.
Si conservano su supporti fisici quali carta, disco magnetico, disco ottico.
Vengono trasmessi attraverso una rete di telecomunicazioni tra gli utenti.
La loro elaborazione porta alla conoscenza di un’informazione.
In essi si osservano aspetti e fenomeni elementari o complessi.
Su essi si effettuano calcoli, si risolvono problemi, e si caratterizzano fenomeni.
Le tecniche di analisi dei dati sono numerosissime:

analisi ESPLORATIVE: servono a conoscere il contenuto di un set di dati e a pulire eventuali inconsistenze contenute nello stesso;

analisi DESCRITTIVE: si fanno sul set di dati pulito, per il quale si conoscono già metriche e dimensioni; qui i dati si vogliono aggregare per leggerli meglio;

analisi PREDITTIVE: dopo aver fatto un’analisi descrittiva dei dati si utilizzano funzioni statistiche utili a prevedere gli andamenti dei fenomeni oggetto di interesse, e ovviamente oggetto del set di dati stesso. E variano in base al tipo di fenomeno.

La statistica

La statistica è la branca della matematica che si occupa di raccolta, organizzazione, analisi, interpretazione e presentazione dei dati.
Per il suo tramite è possibile:

a) procedere ad una raccolta ordinata, ad una stesura comprensibile e ad una elaborazione dei dati

b) scoprire le leggi che legano i dati, a volte solo in apparenza disordinati

c) definire una variabile che assuma diversi valori definibili in un certo intervallo


E’ caratterizzata da 2 ambiti:
DESCRITTIVA: sintetizza i dati attraverso i grafici (diagrammi a barre, istogrammi) e gli indici (media, varianza, concentrazione, correlazione) che descrivono gli aspetti più rilevanti dei dati osservati.
INFERENZIALE: caratterizza i dati e i comportamenti delle misure rilevate, con una probabilità di errore fissata a priori. L’inferenza riguarda la legge probabilistica del fenomeno oggetto di osservazione.
I campi di applicazione:
medicina, tramite la biostatistica
fisica, tramite la fisica statistica
economia, tramite l’econometria a la teoria dei giochi
marketing, tramite le analisi di mercato
psicologia, tramite la psicometria

La probabilità

Il concetto di probabilità è la base di diverse discipline scientifiche. Su di esso si basa la statistica inferenziale, cui fanno ricorso numerose scienze sia naturali che sociali.
In probabilità, un fenomeno si considera osservabile esclusivamente dal punto di vista della possibilità o meno del suo verificarsi, prescindendo dalla sua natura: tra due estremi, detti evento certo ed evento impossibile, si collocano eventi più o meno probabili.
Quindi, un evento mai accaduto, è impossibile che si verifichi per la teoria della probabilità; affermazione forte, che a mio parere comporta la ricerca di risposte provenienti da altre discipline.

La legge dei grandi numeri

La “legge dei grandi numeri” descrive il comportamento della media di una sequenza di n prove di una variabile casuale.
Le prove devono essere indipendenti e caratterizzate dalla stessa distribuzione di probabilità (ad esempio n lanci della stessa moneta), al tendere ad infinito della numerosità della sequenza stessa (n lanci di moneta).
Il teorema afferma che la media calcolata a partire da un numero sufficiente di prove, sia sufficientemente vicina alla media vera, ovvero quella calcolabile teoricamente.
Il valore di n che si è disposti ad accettare come sufficiente dipende dal grado di casualità ritenuta necessaria.
Bernoulli lanciò una moneta 16.000 volte per verificare empiricamente la sua ipotesi!

Il principio di Pareto

Il “principio di Pareto” è un risultato di natura statistica che si riscontra nei sistemi complessi dotati di una struttura causa-effetto.
La formulazione è intuitiva, e afferma che circa il 20% delle cause provoca l’80% degli effetti.
Questa osservazione è detta “legge 80/20”, una legge empirica, conosciuta anche come “principio della scarsità dei fattori”: la maggior parte degli effetti è dovuta a un numero ristretto di cause (considerando i grandi numeri).
I valori 80% e 20% sono ottenuti mediante osservazioni empiriche e sono solo indicativi, ma è molto interessante come numerosi fenomeni abbiano una distribuzione statistica in linea con questi valori.

La serie storica

‘La serie storica, in statistica, è un insieme di variabili casuali ordinate rispetto al tempo che esprime la dinamica di un certo fenomeno.
Il campo di applicazione prevalente è quello dell’analisi economica.
La serie storica interpreta fenomeni tramite individuazione di componenti di trend (ciclicità, stagionalità, accidentalità), e prevede l’andamento futuro.
Il fenomeno può essere osservato in istanti di tempo definiti tramite:

VARIABILI di STATO (numero dei dipendenti di un’azienda, quotazione di chiusura di un titolo negoziato in borsa)

VARIABILI di FLUSSO (vendite annuali di un’azienda, PIL trimestrale)
Le serie storiche sono costituite da caratteristiche chiamate “componenti”:

TENDENZIALE, mostra un andamento crescente, decrescente o costante

CICLICA, analizza l’evento attorno alla curva del trend in momenti costituiti di quattro fasi (prosperità, recessione, crisi, ripresa)

STAGIONALE, determina le variazioni che avvengono negli stessi mesi ma in anni successivi

CASUALE, analizza piccole variazioni dovute ad eventi casuali

OCCASIONALE, se non produce variazioni al trend il dato statistico viene escluso e sostituito da un dato “fittizio”; se il trend cambia, si spezzano la serie in due parti per analizzarle separatamente in due periodi osservazionali

La statistica descrittiva

La statistica descrittiva è il ramo della statistica che studia i criteri di rilevazione, classificazione, sintesi e rappresentazione dei dati.
2 tipi di rilevazione dei dati:
CENSIMENTO, indagine fatta su un’intera popolazione
SONDAGGIO, indagine fatta su un campione rappresentativo della popolazione
2 tipi di distribuzione (o classificazione) dei dati:
SEMPLICE, se ad ogni individuo della popolazione (o del campione) è associato un solo carattere (esempio: età)
COMPLESSA, se ad ogni individuo della popolazione (o del campione) sono associati almeno due caratteri (esempio: età e indirizzo di residenza)
2 principali metodi per la sintesi dei dati:
INDICI di POSIZIONE, restituiscono l’ordine di grandezza (la posizione sulla scala dei numeri) dei valori osservati (esempio: media)
INDICI di VARIABILITA’, descrivono sinteticamente una distribuzione statistica (semplice o complessa) e misurano la distanza tra i valori osservati e l’indice di posizione che di solito è la media (esempio: varianza)
Molteplici sono le rappresentazioni grafiche dei dati osservati:
ISTOGRAMMA
grafico a LINEE
diagramma CIRCOLARE
diagramma di DISPERSIONE

La media

In statistica, la media è l’indice di posizione più utilizzato.
Essa descrive sinteticamente un insieme di dati in un singolo valore numerico (esempio: età media di una popolazione).
Le più utilizzate sono 3, e sono chiamate medie pitagoriche:
media ARITMETICA
media GEOMETRICA
media ARMONICA
In generale quando si parla di media si fa riferimento alla media aritmetica.
Calcolare la media aritmetica significa sommare tutti i valori osservati e dividerli per il totale delle rilevazioni.
Esistono 2 medie aritmetiche:
PONDERATA, si ricava dalla somma dei valori osservati moltiplicati per un peso che ne stabilisce la rilevanza, il tutto diviso per la somma dei pesi
SEMPLICE, tutti i valori hanno peso unitario quindi si sommano i valori osservati si dividono per il totale delle rilevazioni
La media aritmetica è usata spesso per osservare una tendenza ma non è un dato statistico robusto perché risente dei valori anomali.
Di solito al calcolo della media si affianca quello della mediana, che è il valore assunto dalle unità statistiche che si trovano nel mezzo della distribuzione, per procedere con l’analisi comparata dei risultati.

La varianza

In statistica, la varianza di un fenomeno osservato fornisce la misura della variabilità dei dati raccolti.
La variabilità di un fenomeno è quindi l’attitudine di quel fenomeno ad assumere modalità diverse.
La varianza viene valutata attraverso la dispersione dei valori attorno al valore medio del set di dati, tramite la misura di quanto tali dati si discostino (quadraticamente) dalla media aritmetica.
Statisticamente parlando la varianza è la media aritmetica del quadrato delle distanze dei valori dalla loro media.
Le distanze, dette “scarti”, devono necessariamente essere elevate al quadrato perché una proprietà della media aritmetica afferma che la somma degli scarti dalla media è sempre pari a zero.
Elevandolo gli scarti al quadrato si otterrà il confronto di ogni modalità con la media, la cui somma è una misura di sintesi che indica quanto le modalità siano diverse tra loro.
Il limite della varianza è quello di non avere la stessa unità di misura dei valori analizzati (l’esempio che si usa più spesso è quello dei dati raccolti in centimetri la cui varianza è in centimetri quadrati). Per ovviare a questo punto debole si ricorre alla radice quadrata della varianza, chiamato scarto quadratico medio (deviazione standard).

La moda

In statistica, la moda (norma) di una distribuzione di frequenza è un indice di posizione che identifica la modalità con la massima frequenza.
Indica quindi il valore osservato che compare più frequentemente.
Rispetto alla moda, una distribuzione di frequenza può essere:
UNIMODALE, ammette un solo valore modale (esiste un solo valore con la massima frequenza nella distribuzione)
BIMODALE, ammette due valori modali (esistono due valori con la massima frequenza nella distribuzione)
N-MODALE, ammette n valori modali (esistono n valori con la massima frequenza nella distribuzione)
La presenza di due o più mode nella distribuzione potrebbe significare la non omogeneità dei dati osservati.
In questo caso è probabile che esistano due o più sottogruppi omogenei, distinti per una caratteristica diversa da quella osservata.
E’ utile tracciare un istogramma per individuare la classe modale, rappresentata dall’intervallo di altezza massima.
La moda è l’unico indice di posizione in grado di sintetizzare caratteri qualitativi su scala nominale.

La mediana

In statistica la mediana è un indice di posizione, rappresenta il valore centrale dalle unità statistiche.
E’ il valore che si trova al centro della distribuzione.
Ordinando le osservazioni in ordine crescente di valore, la mediana ripartisce la distribuzione in due sotto-distribuzioni:
a SINISTRA si ha la parte costituita dalle modalità minori (o uguali) alla mediana
a DESTRA si ha la parte costituita dalle modalità maggiori (o uguali) alla mediana
La mediana è inoltre un particolare “quantile”.
Il quantile è il valore che ripartisce la popolazione in n parti ugualmente popolate, mediante il calcolo della frequenza CUMULATA RELATIVA:
la MEDIANA (quantile di ordine 1/2) divide la popolazione in 2 parti uguali
i QUARTILI (quantili di ordine 1/4) dividono la popolazione in 4 parti uguali
i QUINTILI (quantili di ordine 1/5) dividono la popolazione in 5 parti uguali
i DECILI (quantili di ordine 1/10) dividono la popolazione in 10 parti uguali
i VENTILI (quantili di ordine 1/20) dividono la popolazione in 20 parti uguali
i CENTILI (quantili di ordine 1/100) dividono la popolazione in 100 parti uguali; vengono chiamati anche PERCENTILI quando sono espressi in percentuale
La mediana è il valore per cui la frequenza relativa cumulata è pari a 0,5, secondo quartile, 50° percentile.

La media armonica

La media armonica, insieme alla media aritmetica e alla media geometrica, fa parte delle medie pitagoriche.
E’ il reciproco della media aritmetica calcolata sul reciproco dei valori osservati.
La media armonica è poco conosciuta e poco approfondita durante gli studi scolastici ma le sue applicazioni sono utili per situazioni molto comuni, ad esempio:
in FISICA si utilizza per il calcolo della velocità media
in ECONOMIA si utilizza per il calcolo del potere di acquisto della moneta

L’analisi dei dati

Le tecniche di analisi dei dati sono numerosissime.
Per la mia esperienza direi che si possono distinguere 3 macro-categorie:
1) analisi esplorative: servono a conoscere il contenuto di un set di dati e a pulire eventuali inconsistenze contenute nello stesso;
2) analisi descrittive: si fanno sul set di dati pulito, per il quale si conoscono già metriche e dimensioni; qui i dati si vogliono aggregare per leggerli meglio;
3) analisi predittive: dopo aver fatto un’analisi descrittiva dei dati si utilizzano funzioni statistiche utili a prevedere gli andamenti dei fenomeni oggetto di interesse, e ovviamente oggetto del set di dati stesso. E variano in base al tipo di fenomeno.

La cluster anaysis

La cluster analysis è la prova più evidente della potenzialità espressa dalla statistica descrittiva dopo l’introduzione dei calcolatori.
Tramite questa metodologia, su una collezione di N soggetti misurati su X variabili, si trova un modello di classificazione per i soggetti osservati in Y classi, determinando il numero delle classi e le caratteristiche delle stesse.
L’obiettivo è individuare la tipologia dei dati raggruppati in classi per modellarli, verificare ipotesi, semplificare l’analisi e formulare nuove ipotesi.
2 metodi:
GERARCHICO, può essere agglomerativo quando si procede per aggregazioni successive e partitivo quando si suddividono progressivamente i cluster
PARTIZIONE e OTTIMIZZAZIONE, consiste in partizione e ottimizzazione delle classi, funziona in modo iterativo basandosi sulla minimizzazione di funzioni-obiettivo
3 tecniche:
analisi COMPONENTI PRINCIPALI, spiega la variabilità dei dati esaminando il loro comportamento al mutare di altri eventi
analisi FATTORIALE, individua i fattori che stabiliscono la dipendenza tra le variabili osservate; assume che esista almeno un fattore che generi la correlazione lineare già presente tra le variabili
analisi DISCRIMINANTE, studia i principi che consentono la classificazione di un soggetto in una della classi esistenti

La statistica stellare

In astronomia la “statistica stellare” utilizza i metodi statistici per studiare la distribuzione delle stelle nella Galassia.
2 le funzioni fondamentali di questa disciplina:

funzione di DENSITA’ SPAZIALE, restituisce il numero di stelle per unità di volume, poste alla distanza x, in direzione longitudinale l e latitudinale m, nel sistema delle coordinate galattiche;

funzione di LUMINOSITA’, restituisce la frazione di stelle con grandezza assoluta compresa tra M−(1/2) e M+(1/2)
I risultati della statistica stellare hanno consentito di determinare la struttura della Via Lattea.

Elenco delle fonti nella pagina Progetto