Psicometria (8/27): Strategie analitiche per la regressione

Se le VI sono più di una, si pone il problema di quale di esse entrerà prima nell'equazione e in base a quale criterio.
La regressione standard risponde a quesiti che riguardano l'entità della relazione complessiva tra le VD e le VI nel determinare questa relazione, quando tutte le VI sono considerate simultanee nell'equazione.
La regressione gerarchica invece, vuole esaminare quale è il contributo aggiuntivo che una VI X₂ inserita dopo la VI X₁, fornisce alla spiegazione della VD.
Infine la regressione statistica serve ad identificare VI che consentono di predirre meglio una VD in un determinato campione.

La regressione standard (o simultanea)
Tutte le VI sono inserite nello stesso momento, e ad ogni VI corrisponde, nella spiegazione della VD, solo quella parte della variabilità che essa condivide solo con quest'ultima.
In questo metodo, se si elevano al quadrato i coefficienti semiparziali (sr) si ottiene la proporzione della varianza dell'intenzione che è spiegata solo da ognuna delle singole VI.
La differenza tra la somma degli sr² e l'R² può essere considerata come la proporzione di varianza della VD spiegata allo stesso tempo da più VI, quindi l'R² costituisce la porzione di varianza della VD spiegata complessivamente da tutte le VI, ed è composto da una parte che riflette il contributo unico di ogni VI (che è la somma degli sr²) e da una parte che riflette il contributo simultaneo di più VI (uguale a R²-Σsr²), e solo se le VI non sono correlate quest'ultimo è uguale a zero e quindi R²=Σsr².

La regressione gerarchica
Le VI vengono inserite nell'equazione secondo un ordine prestabilito dal ricercatore, ed ogni VI è valutata per quanto aggiunge alla spiegazione della VD rispetto a quanto è già stato spiegato dalle VI inserite prima.
Il contributo di una VI può variare se la sua posizione nella gerarchia viene cambiata.
Nella tabella riepilogativa di questa regressione, il parametro R²CA indica il coefficiente di regressione semiparziale al quadrato (sr²) relativo alla variabile inserita in equazione in un determinato momento.
Questo coefficiente viene interpretato come la quantità di varianza aggiunta all'R² da ciascuna VI nel punto in cui la VI entra nell'equazione.

La regressione statistica
In questa regressione l'ordine con cui le variabili vengono inserite o eliminate nell'equazione di regressione è determinato solo da criteri statistici.
Esistono 3 diverse versioni di questa regressione:
Nella regressione forward si ha l'equazione inizialmente vuota e vengono aggiunte di volta in volta le VI che presentano la correlazione più elevata con la VD, e una volta che una VI entra nell'equazione, vi rimane.
Nella regressione backward l'equazione comprende inizialmente tutte le VI e ad ogni passaggio viene eliminata dall'equazione quella VI che non contribuisce sufficientemente alla spiegazione della VD, e una volta tolta dall'equazione una VI, essa non può tornarci.
Nella regressione stepwise non c'è nessuna VI iniziale nell'equazione, e queste vengono aggiunte man mano (solo quelle che soddisfano il criterio statistico), e ad ogni passaggio possono essere eliminate quelle VI che non contribuiscono più significativamente alla regressione.

La regressione standard è la migliore strategia analitica per valutare esplorativamente le relazioni tra un insieme di variabili, la regressione gerarchica permette al ricercatore di esercitare un controllo maggiore sull'analisi ma deve esistere un'ipotesi esplicita a priori sull'ordine di entrata delle variabili nell'equazione, la regressione statistica può essere utile per identificare in uno specifico campione quelle VI che maggiormente contribuiscono a spiegare la VD e per eliminare quelle che non forniscono un contributo soddisfacente.
La regressione statistica è sconsigliata da usare quando si hanno pochi soggetti e molte variabili, e va usata con cautela e i suoi risultati vanno sottoposti a validazione su campioni differenti.

Il metodo di regressione più usato è quello stepwise, ma presenta alcune criticità:

il numero di gradi di libertà è errato, ad ogni step ne viene tolto solo uno e non si mantiene la numerazione corretta col numero di VI.
I risultati sono difficilmente replicabili, dato che piccoli errori campionari possono provocare enormi differenze nei risultati del processo di decisioni sequenziali che fan scegliere le variabili da inserire o togliere.
La procedura può non identificare l'insieme migliore di variabili indipendenti, si limita solo a selezionare ad ogni step la variabile che soddisfa meglio un determinato criterio statistico, e non viene mai esaminato simultaneamente il diverso potere predittivo di gruppi di VI, quindi l'insieme ottimale di predittori potrebbe non essere selezionato.

Questi problemi si aggravano tanto più piccolo è il campione, quanto maggiore è il numero degli step fatti e quante pià VI vengono considerate.