mercoledì 6 aprile 2016

Psicometria (7/27): Assunzioni alla base della regressione lineare

Per applicare correttamente l'analisi di regressione lineare ed attuare la verifica delle ipotesi sui parametri, devono essere soddisfatti alcuni requisiti essenziali:

  1.  Non deve esserci l'errore di specificazione.
     Le forma della relazione tra i Xi e Y deve essere lineare, non devono essere state omesse variabili indipendenti importanti, non devono essere state incluse variabili indipendenti irrilevanti.
  2. Non deve esserci l'errore di misurazione: le variabili devono essere misurate senza errore.
  3. La variabile indipendente deve essere quantitativa o dicotomica, e quella dipendente deve essere quantitativa.
  4. La varianza di ogni variabile indipendente deve essere maggiore di zero.
  5. Il campionamento deve essere casuale semplice.
  6. Se c'è più di una variabile indipendente non deve esserci una perfetta multicollinearità tra di loro, troppa correlazione tra variabili indipendenti deve essere evitata.
  7. Per ogni valore di Xi il valore atteso degli errori deve essere uguale a zero (media uguale a zero), per ogni valore di i la varianza dei residui (errori) deve essere costante per tutti i valori di Xi (omoschedasticità), la distribuzione dei valori di ε per ogni valore di X deve essere di forma normale (normalità), per ogni valore di i e j con i != j i valori associati ad osservazioni diverse non devono essere correlati (assenza di autocorrelazioni), le variabili indipendenti non devono essere correlate con i residui.
La violazione di queste assunzioni è la principale fonte di ineguatezza del modello di regressione, i residui dei valori stimati della regressione (ei=Yi-Yi') rappresentano uno degli elementi più utili per esaminare l'adeguatezza del modello e la rappresentazione grafica della distribuzione dei residui rispetto ai valori predetti può suggerire la presenza di fonti di inadeguatezza del modello.

Errore di specificazione
Commettere errore di specificazione significa che si sta stimando un modello sbagliato, ovvero un modello diverso da quello reale valido nella popolazione.
Questo errore può essere riconosciuto se la distribuzione dei residui (Y-Y') rispetto a Y' assumere la forma curvilineare.
L'additività delle relazioni tra le variabili indipendenti è la proprietà per cui per ciascuna variabile indipendente Xi, la quantità di cambiamento in Yi' associata ad un incremento unitario in Xi è la stessa indipendentemente dai valori delle altre variabili indipendenti nell'equazione.
Se viene inserita una variabile irrilevante nell'elequazione, l'errore standard del coefficiente di regressione della variabile irrilevante può risultare elevato così come gli errori standard delle variabili indipendenti rilevanti, quando la variabile irrilevante risulta correlata con le variabili indipendenti rilevanti.
Se R2 non si modifica dopo l'omissione di una variabile, la variabile in questione può essere considerata irrilevante, e quindi può essere rimossa dall'equazione.
Se invece una variabile rilevante è stata omessa la stima dei coefficienti di regressione può risultare gonfiata o ridotta, a seconda che la variabile ommessa correli positivamente e negativamente con le variabili dell'equazione.

Errore di misurazione
Se la variabile dipendente è misurata con errore, l'errore di misurazione viene assorbito nel termine di errore dell'equazione, e gonfia la varianza di errore, così che R2 sarà più basso mentre le stime dei β saranno ancora corrette ma poco efficienti.
Se sono le variabili indipendenti ad essere misurate con errore, nel caso bivariato le stime dei β risultano inferiori al valore della popolazione , nel caso in cui ci sono più variabili indipendenti misurate con errore, si può avere una stima in eccesso o in difetto del valore della popolazione β.

Multicollinearità
Quando una VI è una combinazione lineare delle altre VI, si ha una collinearità perfetta e si violano le assunzioni del modello della regressione.
Se le variabili indipendenti sono molto correlate, l'interpretazione di una regressione standard può dare coefficienti di regressione bassi o non significativi, e maggiore è la multicollinearità e più elevati sono gli errori standard dei parametri.
Ed errori standard elevati aumentano le probabilità di accettare l'ipotesi nulla, inoltre se le variabili indipendenti sono molto correlate, diventa difficile separare l'effetto di una variabile indipendente sulla dipendente quando le altre son mantenute costanti.

Per rilevare la presenza di multicollinearità si controlla se:
  • la correlazione tra 2 variabili indipendenti è maggiore della loro correlazione con la dipendente
  • la correlazione tra 2 indipendenti è molto alta (>=.80)
  • R2 è elevato e significativo ma pochi coefficienti di regressione sono diversi da zero
  • diversi coefficienti di regressione hanno errori standard alti ed eliminando una o più VI dall'equazione gli errori standard delle altre VI diminuiscono molto
  • analizzando campioni differenti si assiste a notevoli cambiamenti nelle stime dei coefficienti
Per valutare la multicollinearità si possono usare gli indici di tolleranza T e VIF (Variance Inflaction Factor).
T viene usato per stimare quanto una VI è linearmente correlata alle altre VI.
Ti=(1-Ri2)
Una variabile con basso livello di tolleranza condivide molta della sua varianza con le altre variabili indipendenti, quindi probabilmente contribuisce poco a spiegare la VD.
VIF=1/T
Dato che l'indice di tolleranza è compreso tra 0 e 1, valori bassi di VIF indicano bassa collinearità, e viceversa.
Per rimediare alla collinearità si può pensare di aggregare le variabili più correlate, o eliminare un VI molto correlata con altre.

Media degli errori diversa da zero
Quando ciò avviene, la stima di α viene maggiorata di una costante μ, ma questo effetto è poco rilevante.

Eteroschedasticità
Si ha quando la distribuzione dei residui non è costante per tutti i valori di Y', e ciò può verificarsi quando una variabile è asimmetrica mentre le altre non lo sono.
Possono risultare sovrastimati gli errori standard della stima per alcuni valori di Y' e sottostimati per altri, le stime dei parametri risultano corrette e consistenti ma non efficienti.
Il modello può essere migliorato trasformando la variabile dipendente o una o più delle indipendenti, o calcolando l'equazione di regressione con il metodo dei minimi quadrati ponderati.

Normalità dei residui
La non normalità dei residui può rendere le stime dei paramentri meno efficienti, e compromettere l'interpretazione dei punteggi teorici di Y'.
Per rimediare si possono effettuare trasformazioni che normalizzano le variabili.

Autocorrelazione
Se non c'è autocorrelazione gli errori associati a ciascuna osservazione sono tra loro indipendenti.
Il test di Durbin-Watson restituisce un valore da 0 a 4, dove se i residui di osservazioni consecutive non sono correlati il valore è intorno a 2, valori inferiori a 2 indicano autocorrelazione positiva, superiori a 2 indicano autocorrelazione negativa, e se il numero di soggetti è almeno di 100 e le VI sono almeno 2, valori tra 1.5 e 2.2 possono essere considerati indicativi di assenza di autocorrelazione.
L'autocorrelazione può derivare dall'omissione di VI rilevanti nel modello.
In generale, individui che condividono uno stesso ambiente tendono ad avere correlazioni significative, per quelle variabili che sono influenzate dall'ambiente condiviso.

<< Lezione precedente - Prossima lezione >>

 

Torna all'elenco delle lezioni

 

Piaciuto l'articolo? Lascia un commento!

EmoticonEmoticon