Teoria e tecniche dei test (2/8): Validità a priori di un test

Secondo Cronbach, un test dovrebbe evitare di sottoporre ai soggetti difficoltà non pertinenti alla variabile misurata.

Campionatura degli stimoli
Quando si inizia a costruire un test si parte dallo studio della caratteristica che si vuole misurare, gli indicatori della caratteristica da misurare dovranno essere valutati da un gruppo di esperti, che dovranno anche controllare che non siano stati omessi aspetti rilevanti della caratteristica da misurare.
Per ciascuno degli indicatori individuati bisognerà poi costruire un certo numero di stimoli, la cui connessione con l'indicatore andrà valutata dagli esperti, inoltre va anche considerata la modalità di risposta, in quanto parte integrante dello stimolo.
Nella maggior parte dei casi, gli indicatori che descrivono la caratteristica da misurare, sono troppo numerosi per essere considerati tutti, per questo si farà un estrazione casuale, in modo che ci sia la stessa probabilità che ciascun indicatore sia estratto, oppure si potrà scegliere di raggruppare più indicatori in più gruppi/argomenti, scegliendo solo alcuni elementi di ciascun gruppo.
Si dovrà infine accertarsi che ci sia rispondenza tra la misura ottenuta con il test ed il costrutto teorico che il test vuole misurare.

Campionatura dei contenuti nei test cognitivi
Binet ha costruito una scala d'intelligenza individuando per ciascuna fascia d'età i problemi che, per contenuti di riferimento e per processi attivati meglio, possono caratterizzare le differenze tra prestazione degli individui.
Secondo Binet, a cominciare da un certo livello d'età, la maggior parte delle differenze cognitive sono riconducibili a differenze nella capacità di concettualizzazione, che si evidenziano meglio in base alle prestazioni verbali.
L'esame dei contenuti di un test d'intelligenza può essere utile anche per capire se gli item che compongono il test sono stati ideati e scelti secondo un modello razionale o con un procedimento intuitivo, ed il manuale del test di solito fornisce l'analisi dei contenuti e la procedura seguita per la realizzazione degli item.

Campionatura dei contenuti nei test di personalità
I riferimenti alla nosografia comune sono utili per confrontare tra loro test che affermano di valutare la stessa caratteristica.
Un esempio è quello della schizofrenia, i cui sintomi vengono divisi in positivi e negativi (eccesso e diminuzione delle normali funzioni), dove se un test prende in considerazione solo i sintomi positivi, avrà anche caratteristiche psicometriche corrette ma non valide.
Nei test proiettivi e in quelli a risposta aperta, l'esame di validità di contenuto include la definizione operativa della variabile, ovvero la descrizione di quali sono gli elementi da classificare nella categoria che dovrebbe darci la misura della caratteristica psicologica considerata.
Quindi se gli autori di un test non chiariscono la definizione operativa da loro usata per identificare ciascuna variabile, il test proposto manca di validità di contenuto.

Qualità formale degli stimoli
Per garantire la validità di contenuto occorre che il test non presenti nessuna difficoltà se non quelle pertinenti alla variabile misurata, quindi il test deve misurare tutti e soltanto gli aspetti della caratteristica psicologica da misurare.
Gli aspetti formali da controllare per la validità di contenuto sono:

Chiarezza ed univocità degli stimoli: assicurarsi che i soggetti capiscano il significato degli stimoli (es. bambini piccoli che non capiscono cosa vuol dire una parola), che lo stimolo sia ben strutturato ed identificato, foto e disegni devono essere chiari ed appartenere al bagaglio culturale del rispondente, non usare termini difficili.
Chiarezza ed univocità del titolo e delle istruzioni: indicare nelle istruzioni l'eventuale ritmo da tenere per evitare la distorsione motivazionale (ad esempio dicendo di rispondere il più rapidamente possibile), mettere quesiti facili per facilitare chi non è culturalmente preparato.
Chiarezza ed univocità nella disposizione degli stimoli: ogni item deve riferirsi ad un solo problema, gli elementi della proposizione devono essere in ordine diretto, non devono esserci parentesi o incisi che rendano la frase non lineare nella sua struttura, la complessità sintattica deve essere minima, non devono esserci elementi formali che orientano il soggetto verso una risposta piuttosto che un'altra, non devono esserci connessioni che leghino i quesiti tra loro, esprimere la negazione non solo con "non" ma anche con "niente, nessuno, pochissimo", evidenziare con il neretto la parola che esprime la negazione, evitare la doppia negazione.

Struttura degli stimoli
Lo stimolo deve essere univoco e quindi esser dotato di una buona validità di contenuto.
Esistono diversi tipi di stimoli:

Stimoli costituiti da un'immagine o un testo preceduti o seguiti da istruzioni: sono i test proiettivi come il test di Rorshach, dove l'immagine, le istruzioni, o il testo usato come riferimento deve essere univoco e chiaro, deve esserci la definizione operativa della caratteristica da valutare, devono esserci indicazioni chiare e univoche per analizzare le risposte complesse assimilabili in unità, deve esserci una descrizione particolareggiata delle regole per l'assegnazione del punteggio.
Stimoli costituiti da una serie di domande o problemi seguiti da risposte aperte: chiarezza e univocità delle domande, definizione operativa delle caratteristiche da valutare, indicazioni chiare e univoche per analizzare/frammentare la risposta complessa, descrizione particolareggiata attribuzione punteggi, verifica accordo tra operatori diversi sul modo di frammentare e classificare le risposte.
Stimoli costituiti da una serie di domande o problemi seguiti da risposte chiuse: dove c'è una risposta alpha corretta e più risposte beta che agiscono da distrattori, e dove tutti gli item devono avere lo stesso formato, e deve esserci l'equiattrazione, ovvero le alternative di risposta devono avere lo stesso livello di attrazione, ovvero la stessa probabilità di ricevere risposte.

Verifica della validità a priori
Esistono non molte statistiche per elaborare dati nominali e trovare conferme o disconferme di ipotesi, eccone alcuni tipi:

Concordanza tra 2 giudici con l'indice "k" di Cohen: è la proporzione di accordo tra valutatori usato nelle scale nominali, con la formula
k=(P_o-P_a)/(1-P_a)
Dove P_o è la concordanza osservata, mentre P_a è la concordanza aspettata, e dove un valore di k=0 corrisponde ad un accordo osservato dovuto al caso, mentre k=1 è il massimo accordo e assume valori negativi quando l'accordo osservato è inferiore a quello che si avrebbe per effetto del caso.
Questo indice però ha problemi quando ci sono tanti giudici o tante categorie.
Q di Cochran: quando i valutatori sono tanti e si esprimono con dicotomie (si o no), con un parere di almeno 3 persone (cmq di numero dispari), il Q si applica quando si vuole valutare la significatività statistica della concordanza tra k campioni correlati.
Il calcolo di Q si basa sul rapporto tra le valutazioni date dai singoli giudici e le valutazioni attribuite ai singoli oggetti, quindi si può calcolare se l'accordo tra l'insieme dei giudici sull'insieme degli oggetti valutati è statisticamente significativo, ed eventualmente si possono eliminare oggetti e ricalcolare l'indice.
Indici d'accordo calcolati con statistiche d'informazione: si valuta la significatività statistica rispetto all'ipotesi nulla e la misura dell'accordo raggiunto.

Oggi è un altro post

domenica 10 luglio 2016

Teoria e tecniche dei test (2/8): Validità a priori di un test

<< Lezione precedente - Prossima lezione >>

Torna all'elenco delle lezioni

Lascia un commento!