Psicometria (12/27): Il metodo delle componenti principali

Analisi delle componenti principali (ACP)

Per ricavare la matrice delle saturazioni nei fattori comuni (A) si può usare il calcolo delle componenti principali.

Per diagonalizzare una matrice simmetrica si usano gli autovalori e gli autovettori di R:

L=V'RV

e

R=VLV'

Dove V è la matrice degli autovettori e L è la matrice degli autovalori di R.
La diagonalizzazione di R consente di identificare la matrice di A che consente di riprodurre la matrice R, ovvero:

R= AA'

Dove: A=VL^.5

La tecnica delle componenti principali serve a riassumere l'informazione contenuta in un insieme di variabili osservate, e questo avviene con l'identificazione di una serie di combinazioni lineari c_i delle variabili originali x_i, con c_i=Xv_i
Dove:
c_i è il vettore dei punteggi nella i-esima componente principale per i soggetti del campione.
X è la matrice dei dati originali.
v_i è l'i-esimo autovettore di R.

Avendo una matrice X composta da 2 variabili x_i e x₂, l'autovettore v₁ definisce la direzione nello spazio in cui la nuvola di punti (del grafico risultato) è più lunga, e ponderando le variabili originali con l'autovettore si ottiene una nuova variabile che è definita con l'equazione: c₁=Xv₁

Nel calcolo delle componenti principali si possono individuare tante componenti quante sono le variabili originali (ma ovviamente non ha senso farlo), di solito però il numero di componenti calcolate è molto inferiore a quello delle variabili osservate.

Il secondo autovettore v₂ è orientato perpendicolarmente al primo e spiega il massimo possibile della varianza delle variabili originali dopo quella spiegata dalla prima componente.
Moltiplicando la matrice X per il secondo autovettore si ottiene la seconda componente principale: c₂=Xv₂

Dalle componenti principali si può ottenere la matrice che contiene le correlazioni tra variabili e componenti, e nella formula A_c=VL^.5, A_c è la matrice delle saturazioni nelle componenti.

Gli autovettori della matrice R danno importanti informazioni sulla varianza delle variabili:

L'autovettore diviso per il numero di variabili osservate è uguale alla proporzione di varianza totale spiegata dalla componente
La somma delle saturazioni elevate al quadrato per ogni componente (colonna) è uguale all'autovalore associato alla componente, mentre la somma delle saturazioni al quadrato per ogni variabile (riga) è uguale alla comunalità delle variabili.
La traccia di R è uguale alla traccia di L, cioè la somma degli autovalori è uguale alla somma delle varianze standardizzate delle variabili (della diagonale principale di R).

Il primo autovalore di R è quello più elevato di tutti ed è associato al primo fattore che quindi spiega la proporzione di varianza maggiore degli altri, mentre il secondo autovettore è quello più elevato dopo il primo, associato al secondo fattore, e così via.
La grandezza degli autovalori rappresenta quindi una progressione decrescente corrispondente alla progressione della varianza spiegata dai fattori associati ad essi.

Oggi è un altro post

venerdì 8 aprile 2016

Psicometria (12/27): Il metodo delle componenti principali

<< Lezione precedente - Prossima lezione >>

Torna all'elenco delle lezioni