mercoledì 9 marzo 2016

Statistica (12/19): Distribuzioni teoriche di probabilità

Una distribuzione di probabilità è data dall'insieme delle probabilità associate ai possibili risultati di un esperimento.

Le distribuzioni teoriche non sono frutto di dati realmente raccolti, ma sono dati ricavati da delle teorie matematiche.

Distribuzione binomiale
I dati binomiali sono i risultati della misurazione di una variabile dicotomica, ovvero una variabile che consente solo 2 tipi di valori (giusto/sbagliato, vero/falso, maschio/femmina ecc...).
Si può prendere un singolo evento oppure un insieme di eventi binomiali e costruire la distribuzione di probabilità binomiale.
Per costruire la distribuzione di probabilità binomiale occorre conoscere la probabilità di successo (p) per ogni singolo evento, il loro numero complessivo (n) e calcolare la probabilità facendo variare k da 0 a n. Infatti nella distribuzione binomiale, i possibili risultati sono dati dal numero di eventi favorevoli (k), rispetto al numero di complessivo di eventi della distribuzione in esame.

Avendo ad esempio una sola domanda di tipo corretto o scorretto, si avrà la risposta corretta (C) o la risposta scorretta (S), k può assumere solo 2 valori, 0 o 1, ciascuno con la probabilità associata p di .50 (o 50%).

distribuzione binomiale

Avendo invece 2 domande, si potranno avere le seguenti casistiche: entrambe corrette (CC), una sola corretta (CS o SC), entrambe scorrette (SS), e k potrà variare da 0 a 2.
Quindi:
entrambe corrette: p(C^C) = p(C)*p(C) = .50*.50 = .25
entrambe scorrette: p(S^S) = p(S)*p(S) = .50*.50 = .25
Mentre se si ha una corretta ed una scorretta, bisogna considerare entrambi incasi (CS e SC), e si calcolerà quindi la probabilità disgiunta dei 2 eventi:
p(C^S) U p(S^C) = (.50*.50)+(.50*.50) = .50

grafico

Nel caso di 3 domande, per velocizzare il calcolo si usa l'equazione che esprime la funzione di probabilità binomiale:

p(k) = nCk*pk*qn-k

n(nCk) è il coefficiente binomiale, dove C sono le combinazioni.
Le combinazioni si calcolano con i numeri fattoriali:

Esempio: 4C2 = 4!/[2!(4-2)!] = (4*3*2!)/(2*2!) = 6

I numeri fattoriali si calcolano con la seguente formula:
n! = n*(n-1) * (n-1) * (n-2) * (n-3) ... (n-n+1)
es: 3!=3*(3-1)*(3-2)*(3-3+1)=6
Quando è necessario si può sviluppare il fattore fino ad un certo punto, ricavando il risulato parziale e un fattore minore, ad esempio: 4!=4*(4-1)*(4-2)*(4-3)*2!, dove ci si è fermati al 2!

Le combinazioni di n elementi presi a k a k, sono tutti i possibili raggruppamenti di k elementi entro n (con k<n) che si distinguono tra loro unicamente per la presenza di elementi diversi:

formula

Ovvero se ad esempio si ha 3C2, vuol dire che si vuole sapere quanti gruppi si possono formare da 2 elementi con 3 elementi a disposizione, avendo tra loro almeno un elemento diverso.
Le disposizioni di n elementi presi a k a k, sono tutti i possibili raggruppamenti k elementi entro n (con k<n) che si distinguono per l'ordine e la presenza di elementi diversi:

formula

Ovvero se ad esempio si ha 3C2, vuol dire che si vuole sapere quanti gruppi si possono formare da 2 elementi con 3 elementi a disposizione, avendo tra loro almeno un elemento diverso e ordinamento diverso (ABC, BCA).
Le permutazioni di n elementi presi a n a n, sono tutte le serie ordinate di tali elementi:
nPn=n!
Le permutazioni sono gruppi di sequenze, ovvero se in una corsa ci sono 5 cani, il risultato della permutazione darà il numero di gruppi che è possibile creare con diverse sequenza d'arrivo (es gruppo 1 cani in ordine d'arrivo: A,C,B,E,D, gruppo 2 ordine: E,D,C,B,A, ecc...).

La somma di tutte le probabilità associate ai risultati ∑p(k) è uguale a 1.

La forma della distribuzione in caso di p=q è simmetrica rispetto al valore centrale, vicino al quale sono collocate le probabilità più elevate di successo.

simmetria

Con p!=q si avrà una distribuzione asimmetrica, dove se p<q si avrà una asimmetrica positiva, e con p>q una asimmetrica negativa.

Asimmetrica positiva:
asimmetrica positiva

La distribuzione binomiale può essere utilizzata non solo quando un soggetto è soggetto a più prove, ma anche quando più soggetti stanno svolgendo la stessa prova.
Ovvero, l'equazione binomiale definisce la probabilità di un singolo soggetto di k scelte corrette su n prove, oppure la probabilità di n soggetti che svolgono la stessa prova di compiere k scelte corrette.
In entrambi i casi si calcola la probabilità relativa al risultato k ottenuto complessivamente da un campione che può essere costituito da n soggetti o da n prove.


Media e deviazione standard della distribuzione binomiale

La media è il risultato più probabile, quello più atteso.
Se ci si trova davanti ad una sola prova, la media è uguale a p, altrimente, se le prove sono n, la media è:

µ = n*p

La deviazione standard invece:

formula

La distribuzione continua
La distribuzione normale è una distribuzione teorica tra le più comuni, nota anche come curva a campana (o gaussiana), o anche come curva ad errori, in quanto una serie di misurazioni ripetute di errore tendono a distribuirsi normalmente.

gauss

formula

Dove il pigreco equivale a 3.14, e equivale a 2.72.
Nella rappresentazione grafica, l'area totale al di sotto della curva (da - infinito a + infinito) è uguale a 1 e corrisponde alla probabilità totale.

Si po poi calcolare per ogni valore di x la probabilità di verificarsi, definendo l'intervallo fino al valore x, calcolato con:

formula

L'integrale consente di calcolare la somma di aree quando le variabili sono continue.

Tutte le distribuzioni normali hanno alcune caratteristiche comuni, ad esempio:
sono simmetriche rispetto alla media, dato che i valori di x si posizionano ad una stessa distanza sopra o sotto la media.
Le aree tra - infinito e la media e + infinito e la media, sono uguali a .50, la metà dell'intera area che ricordiamo è 1.
Anno tutte la forma a campana con una maggiore concentrazione dei casi intorno alla media, ed una minore nelle code.
La curva presente alcuni punti di flesso in corrispondenza di +- una deviazione standard dalla media, in cui la curva diventa da convessa a concava.
La distribuzione  assume il suo punto massimo in corrispondenza della media, che è quindi il valore più probabile con frequenza più alta.
La media coincide con la moda e con la mediana.
La distribuzione normale è detta quindi unimodale.
La curva è detta asintotica dato che le code tendono all'infinito, senza toccare mai l'ascisse.
Inoltre, qualsiasi siano i parametri, l'area della porzione di curva delimitata dalla media è un'ordinata espressa in ordine di deviazione standard costante: tra -1 e +1 deviazione standard si trovano il 68.26% dei casi, tra -2 e +2 il 95.46%, tra +3 e -3 il 99.73% dei casi.

La distribuzione normale standardizzata si ottiene trasformando i valori della variabile x in punteggi standardizzati z.

formula

La f(z) ha µ=0 e σ=1 ed è sempre rappresentata da una sola curva, mentre la distribuzione normale non standardizzata è rappresentabile da infinite curve a seconda dei valori dei parametri µ e σ.
L'uso di questa distribuzione consente di individuare le probabilità relative ai diversi intervalli dei valori tramite le tavole di probabilità.

Per poter calcolare la proporzione di valori sottostanti la curva utilizzando le tavole di probabilità occorre trasformare i risultati grezzi in punti z, e ciò è possibile solo se i punteggi si distribuiscono normalmente.
Le tavole riportano l'area compresa tra la media e z, e l'area che si colloca oltre il punto z, nella coda della distribuzione.
Nella prima colonna della tavola si ha il valore di z con il primo decimale e nella prima riga la seconda cifra del decimale.
Visto che si tratta di una distribuzione normale, i valori di z nelle tavole sono sempre positivi.


Quando usare le tavole della distribuzione normale standardizzata
  1. Per determinare l'area al di sopra o al di sotto di un valore o l'area compresa tra due valori di una variabile.
  2. Per determinare le frequenze teoriche corrispondenti a una determinata area.
  3. Per determinare i valori grezzi conoscendo le aree.
Dato che bisogna calcolare la probabilità al di sotto di un certo valore, occorre verificare se questo valore sta sopra o sotto la media, se quindi z è positivo o negativo.

Per calcolare l'area compresa tra due valori zeta, occorre distinguere il caso in cui un valore è positivo e l'altro è negativo, dal caso in cui siano entrambi positivi o entrambi negativi.

Tabella riassuntiva del calcolo delle aree della distribuzione normale con le tavole:

Valori che definiscono l'intervallo Segno dei valori che definiscono l'intervallo Operazioni sulle aree identificate sulla tavola
z1 e z2
entrambi positivi o entrambi negativi Differenza:
Area maggiore - Area minore
uno positivo ed uno negativo Somma:
Area1+Area2
z e infinito
entrambi positivi o entrambi negativi Differenza:
.5000-area
uno positivo ed uno negativo Somma:
.5000+area

Le aree corrispondono alle frequenze relative, e conoscendo le fr, possiamo calcolare le frequenze assolute moltiplicando l'area ottenuta per il numero totale di frequenze N.


Riepilogo di come calcolare la probabilità con la distribuzione normale

1) Trasformare i valori grezzi in valori z:

formula

2) Rappresentare graficamente la curva normale individuando i punti z e il valore medio.

3) Usare le tavole della distribuzione normale:

  • Trovare il valore di zeta con la prima cifra decimale nella colonna di sinistra, individuare la seconda riga decimale nella prima riga, e ricercandone l'intersezione si ricava dalla tavola 1a l'area tra la media e z, e nella tavola 1b l'area da z al resto della coda della distribuzione.
  • Per i valori di z con segno negativo si utilizza la parte positiva della distribuzione.
  • Quando si calcolano le aree bisogna ricordare che la somma la somma totale dell'are al di sotto della curva è guale a 1 e la metà è .5000. 

<< Lezione precedente - Prossima lezione >>

 

Torna all'elenco delle lezioni

 


Piaciuto l'articolo? Lascia un commento!

EmoticonEmoticon