Se le VI sono più di una, si pone il problema di quale di esse entrerà prima nell'equazione e in base a quale criterio.
La regressione standard risponde a quesiti che riguardano l'entità
della relazione complessiva tra le VD e le VI nel determinare questa
relazione, quando tutte le VI sono considerate simultanee
nell'equazione.
La regressione gerarchica invece, vuole esaminare quale è il contributo aggiuntivo che una VI X2 inserita dopo la VI X1, fornisce alla spiegazione della VD.
Infine la regressione statistica serve ad identificare VI che consentono di predirre meglio una VD in un determinato campione.
La regressione standard (o simultanea)
Tutte le VI sono inserite nello stesso momento, e ad ogni VI
corrisponde, nella spiegazione della VD, solo quella parte della
variabilità che essa condivide solo con quest'ultima.
In questo metodo, se si elevano al quadrato i coefficienti semiparziali
(sr) si ottiene la proporzione della varianza dell'intenzione che è
spiegata solo da ognuna delle singole VI.
La differenza tra la somma degli sr2 e l'R2 può essere considerata come la proporzione di varianza della VD spiegata allo stesso tempo da più VI, quindi l'R2
costituisce la porzione di varianza della VD spiegata complessivamente
da tutte le VI, ed è composto da una parte che riflette il contributo
unico di ogni VI (che è la somma degli sr2) e da una parte che riflette il contributo simultaneo di più VI (uguale a R2-Σsr2), e solo se le VI non sono correlate quest'ultimo è uguale a zero e quindi R2=Σsr2.
La regressione gerarchica
Le VI vengono inserite nell'equazione secondo un ordine prestabilito dal
ricercatore, ed ogni VI è valutata per quanto aggiunge alla spiegazione
della VD rispetto a quanto è già stato spiegato dalle VI inserite
prima.
Il contributo di una VI può variare se la sua posizione nella gerarchia viene cambiata.
Nella tabella riepilogativa di questa regressione, il parametro R2CA indica il coefficiente di regressione semiparziale al quadrato (sr2) relativo alla variabile inserita in equazione in un determinato momento.
Questo coefficiente viene interpretato come la quantità di varianza aggiunta all'R2 da ciascuna VI nel punto in cui la VI entra nell'equazione.
La regressione statistica
In questa regressione l'ordine con cui le variabili vengono inserite o
eliminate nell'equazione di regressione è determinato solo da criteri
statistici.
Esistono 3 diverse versioni di questa regressione:
Nella regressione forward si ha l'equazione inizialmente vuota e
vengono aggiunte di volta in volta le VI che presentano la correlazione
più elevata con la VD, e una volta che una VI entra nell'equazione, vi
rimane.
Nella regressione backward l'equazione comprende inizialmente
tutte le VI e ad ogni passaggio viene eliminata dall'equazione quella VI
che non contribuisce sufficientemente alla spiegazione della VD, e una
volta tolta dall'equazione una VI, essa non può tornarci.
Nella regressione stepwise non c'è nessuna VI iniziale
nell'equazione, e queste vengono aggiunte man mano (solo quelle che
soddisfano il criterio statistico), e ad ogni passaggio possono essere
eliminate quelle VI che non contribuiscono più significativamente alla
regressione.
La regressione standard è la migliore strategia analitica per valutare esplorativamente le relazioni tra un insieme di variabili, la regressione gerarchica
permette al ricercatore di esercitare un controllo maggiore
sull'analisi ma deve esistere un'ipotesi esplicita a priori sull'ordine
di entrata delle variabili nell'equazione, la regressione statistica
può essere utile per identificare in uno specifico campione quelle VI
che maggiormente contribuiscono a spiegare la VD e per eliminare quelle
che non forniscono un contributo soddisfacente.
La regressione statistica è sconsigliata da usare quando si hanno pochi
soggetti e molte variabili, e va usata con cautela e i suoi risultati
vanno sottoposti a validazione su campioni differenti.
Il metodo di regressione più usato è quello stepwise, ma presenta alcune criticità:
- il numero di gradi di libertà è errato, ad ogni step ne viene tolto solo uno e non si mantiene la numerazione corretta col numero di VI.
- I risultati sono difficilmente replicabili, dato che piccoli errori campionari possono provocare enormi differenze nei risultati del processo di decisioni sequenziali che fan scegliere le variabili da inserire o togliere.
- La procedura può non identificare l'insieme migliore di variabili indipendenti, si limita solo a selezionare ad ogni step la variabile che soddisfa meglio un determinato criterio statistico, e non viene mai esaminato simultaneamente il diverso potere predittivo di gruppi di VI, quindi l'insieme ottimale di predittori potrebbe non essere selezionato.
Piaciuto l'articolo? Lascia un commento!
EmoticonEmoticon