Quando si interpreta un coefficiente di
correlazione vanno tenuti presente 2 elementi:
- la significatività statistica
- l'intensità della correlazione
Concordanza tra forme parallele di un test
Quando si creano forme parallele, queste devono essere simili sia per contenuto che per proprietà metodologiche.
Il
metodo delle forme parallele è, l'insieme al coefficiente alfa, una delle stime basilari di un test.
Le forme parallele sono dunque test equivalenti per contenuto e
caratteristiche psicometriche, anche se composti da item materialmente
diversi.
I
controlli da effettuare per questi test sono:
- coefficiente di correlazione (r>0,80)
- medie aritmetiche e stima della significatività delle differenze tra medie
- deviazione standard e stima della significatività delle differenze tra DS (non devono essere statisticamente significative)
Le forme parallele sono utili in tutti i casi in cui serve
somministrare di nuovo lo stesso test a distanza di tempo, per fare dei
controlli.
Tra i test cognitivi disponibili in forme parallele c'è il
test di Otis, per i test sulla personalità invece c'è il
Sixteen Personality Factors (16PF) di
Cattell, che è diviso in 4 forme parallele, dove le caratteristiche personali misurate sono 16.
Concordanza tra i risultati ottenuti dagli stessi soggetti a distanza di tempo
Il
metodo del retest si ha quando lo stesso test viene somministrato due volte alla stessa persona a distanza di tempo.
Questo metodo ha però dei problemi metodologici dato che alcune
caratteristiche mutano con il tempo, come ad esempio l'umore, e quindi
l'intervallo di tempo tra 2 misurazioni va scelto con molta cura e sulla
base dei dati già noti riguardo la stabilità della caratteristica da
misurare.
In generale cmq, la somministrazione a distanza di tempo di 2 forme
parallele raramente può essere attuata, perchè pochi test si articolano
in 2 forme parallele.
Nei test di livello
cognitivo ed attitudinali, la porzione di
varianza tra una somministrazione ed un'altra va attribuita al caso,
cioè all'insieme di differenze tra stili di somministrazione, modalità
di attribuzione del punteggio, cambiamenti della salute e dell'umore,
differenze individuali di apprendimento.
Nei test sulla
personalità c'è il problema della validità di
contenuto, dato che lo psicologo si trova a confrontarsi con diversi
modelli teorici, nessuno dei quali sufficientemente valido, e
scarsamente compatibili tra loro.
Cattell fa una distinzione tra:
- coefficiente di affidabilità: la misura di quanto il test tiene sotto controllo l'effetto dell'apprendimento e della memoria (retest dopo 4-7 giorni).
- coefficiente di stabilità: la misura di quanto vengono tenute sotto controllo le fluttuazioni tipiche di alcune caratteristiche (retest dopo 2 mesi).
Omogeneità di scale e test
Un test è
omogeneo quando qualsiasi elemento del test misura la stessa cosa di qualsiasi altro.
E' importante che il coefficiente di attendibilità-omogeneità non sia
troppo basso, in tal caso vorrebbe dire che il test è troppo corto
oppure che la caratteristica esaminata non è ben definita.
Per stimare l'omogeneità interna di un test si usa il
calcolo della correlazione tra 2 metà del test.
Il metodo dello
split-half è una formula (
Spearman-Brown) che
partendo dalla correlazione tra le 2 metà del test, fa la stima del
valore che avrebbe la correlazione se venisse calcolata sul doppio degli
item su cui è stata calcolata.
Il metodo split-half consente di diminuire la quantità di calcoli
necessaria per stimare l'entità dell'intercorrelazione media tra test,
ma non è usabile quando ci si riferisce a test di rapidità, e per quanto
riguarda la sua interpretazione, un valore di
r>0,80 è considerato accettabile.
Il
coefficiente alfa di Cronbach consente invece di conoscere il
contributo dei singoli item all'omogeneità del test, tramite l'analisi
della varianza, verificando se i dati inclusi nella stessa categoria
tendono ad essere più simili tra loro di dati inclusi in un'altra
categoria, calcolando appunto dei rapporti tra componenti della varianza
interpretabili come un particolare coefficiente di correlazione detto
interclasse,
il quale assume valore zero quando la varianza vera (quella prodotta
dalle differenze individuali) è zero, e assume valore 1 quando la
varianza erronea è nulla.
Il coefficiente alfa si basa sul rapporto tra varianza data dai singoli
item e varianza dell'intero test, ed è un coefficiente adatto a misurare
l'attendibilità-omogeneità dei test o delle scale che hanno risposte
articolate in più di 2 livelli.
Il
coefficiente di Kuder-Richardson si usa nei test con punteggio
dicotomico (1 ad alfa e 0 a non alfa), dove il calcolo della varianza è
dato dalla proporzione delle risposte esatte
p moltiplicata per la proporzione che manca a raggiungere l'unità
q=1-p.
Esiste anche una versione semplificata della K20 di Richardson, la K21,
che si usa quando si ipotizza che tutti gli item del test siano
ugualmente difficili o ugualmente attraenti.
Item analysis
E' un insieme di tecniche usate dai costruttori dei test che devono
essere conosciute anche dagli utenti che vogliono interpretare bene i
risultati del test.
Gli indici forniti dall'item analysis sono in stretta connessione con le
problematiche di attendibilità, e quest'analisi prende in esame i
singoli item, fornendo indici statistici che consentono di valutarne la
qualità uno per uno.
L'analisi degli item produce 2 tipi di indici:
- indice di difficoltà: misurato da statistiche univariate che dicono quale è la proporzione di risposte alfa date in rapporto al quesito.
- indice di discriminazione: misurato da un coefficiente di correlazione, sintetizza l'omogeneità tra quesito e scala.
Per garantire la buona qualità metrologica degli item, è inoltre importante controllare l'equiprobabilità delle alternative.
Interpretazione delle differenze di punteggio degli stessi soggetti
Nelle
scale Wechsler ogni soggetto riceve 3 punteggi principali:
QI Verbale, QI di Performance e QI Totale, e l'insieme di questi
punteggi può essere definito un profilo.
Il QIV dovrebbe essere la stima dell'intelligenza cristallizzata e il
QIP una stima dell'intelligenza fluida, e quando c'è una significativa
differenza tra queste 2 intelligenze può significare negli anziani
l'inizio della demenza e nei giovani qualche danno al sistema nervoso
centrale.
E' quindi importante sapere quanto grande deve essere questa differenza per essere significativa, e per far ciò si usa l'
errore standard,
dato che nessun punteggio è perfettamente stabile ed oscilla tra una
gamma, la cui ampiezza è definita dall'errore standard della misura, e
quindi il calcolo di questo errore può far capire se la differenza tra i
QI è dovuta al caso e quindi può non venir presa in considerazione,
o se invece può essere un qualcosa di grave.