Teoria e tecniche dei test (4/8): La concordanza tra più misure

Quando si interpreta un coefficiente di correlazione vanno tenuti presente 2 elementi:

la significatività statistica
l'intensità della correlazione

Concordanza tra forme parallele di un test
Quando si creano forme parallele, queste devono essere simili sia per contenuto che per proprietà metodologiche.
Il metodo delle forme parallele è, l'insieme al coefficiente alfa, una delle stime basilari di un test.
Le forme parallele sono dunque test equivalenti per contenuto e caratteristiche psicometriche, anche se composti da item materialmente diversi.
I controlli da effettuare per questi test sono:

coefficiente di correlazione (r>0,80)
medie aritmetiche e stima della significatività delle differenze tra medie
deviazione standard e stima della significatività delle differenze tra DS (non devono essere statisticamente significative)

Le forme parallele sono utili in tutti i casi in cui serve somministrare di nuovo lo stesso test a distanza di tempo, per fare dei controlli.
Tra i test cognitivi disponibili in forme parallele c'è il test di Otis, per i test sulla personalità invece c'è il Sixteen Personality Factors (16PF) di Cattell, che è diviso in 4 forme parallele, dove le caratteristiche personali misurate sono 16.

Concordanza tra i risultati ottenuti dagli stessi soggetti a distanza di tempo
Il metodo del retest si ha quando lo stesso test viene somministrato due volte alla stessa persona a distanza di tempo.
Questo metodo ha però dei problemi metodologici dato che alcune caratteristiche mutano con il tempo, come ad esempio l'umore, e quindi l'intervallo di tempo tra 2 misurazioni va scelto con molta cura e sulla base dei dati già noti riguardo la stabilità della caratteristica da misurare.
In generale cmq, la somministrazione a distanza di tempo di 2 forme parallele raramente può essere attuata, perchè pochi test si articolano in 2 forme parallele.
Nei test di livello cognitivo ed attitudinali, la porzione di varianza tra una somministrazione ed un'altra va attribuita al caso, cioè all'insieme di differenze tra stili di somministrazione, modalità di attribuzione del punteggio, cambiamenti della salute e dell'umore, differenze individuali di apprendimento.
Nei test sulla personalità c'è il problema della validità di contenuto, dato che lo psicologo si trova a confrontarsi con diversi modelli teorici, nessuno dei quali sufficientemente valido, e scarsamente compatibili tra loro.
Cattell fa una distinzione tra:

coefficiente di affidabilità: la misura di quanto il test tiene sotto controllo l'effetto dell'apprendimento e della memoria (retest dopo 4-7 giorni).
coefficiente di stabilità: la misura di quanto vengono tenute sotto controllo le fluttuazioni tipiche di alcune caratteristiche (retest dopo 2 mesi).

Omogeneità di scale e test
Un test è omogeneo quando qualsiasi elemento del test misura la stessa cosa di qualsiasi altro.
E' importante che il coefficiente di attendibilità-omogeneità non sia troppo basso, in tal caso vorrebbe dire che il test è troppo corto oppure che la caratteristica esaminata non è ben definita.
Per stimare l'omogeneità interna di un test si usa il calcolo della correlazione tra 2 metà del test.
Il metodo dello split-half è una formula (Spearman-Brown) che partendo dalla correlazione tra le 2 metà del test, fa la stima del valore che avrebbe la correlazione se venisse calcolata sul doppio degli item su cui è stata calcolata.
Il metodo split-half consente di diminuire la quantità di calcoli necessaria per stimare l'entità dell'intercorrelazione media tra test, ma non è usabile quando ci si riferisce a test di rapidità, e per quanto riguarda la sua interpretazione, un valore di r>0,80 è considerato accettabile.
Il coefficiente alfa di Cronbach consente invece di conoscere il contributo dei singoli item all'omogeneità del test, tramite l'analisi della varianza, verificando se i dati inclusi nella stessa categoria tendono ad essere più simili tra loro di dati inclusi in un'altra categoria, calcolando appunto dei rapporti tra componenti della varianza interpretabili come un particolare coefficiente di correlazione detto interclasse, il quale assume valore zero quando la varianza vera (quella prodotta dalle differenze individuali) è zero, e assume valore 1 quando la varianza erronea è nulla.
Il coefficiente alfa si basa sul rapporto tra varianza data dai singoli item e varianza dell'intero test, ed è un coefficiente adatto a misurare l'attendibilità-omogeneità dei test o delle scale che hanno risposte articolate in più di 2 livelli.
Il coefficiente di Kuder-Richardson si usa nei test con punteggio dicotomico (1 ad alfa e 0 a non alfa), dove il calcolo della varianza è dato dalla proporzione delle risposte esatte p moltiplicata per la proporzione che manca a raggiungere l'unità q=1-p.
Esiste anche una versione semplificata della K20 di Richardson, la K21, che si usa quando si ipotizza che tutti gli item del test siano ugualmente difficili o ugualmente attraenti.

Item analysis
E' un insieme di tecniche usate dai costruttori dei test che devono essere conosciute anche dagli utenti che vogliono interpretare bene i risultati del test.
Gli indici forniti dall'item analysis sono in stretta connessione con le problematiche di attendibilità, e quest'analisi prende in esame i singoli item, fornendo indici statistici che consentono di valutarne la qualità uno per uno.
L'analisi degli item produce 2 tipi di indici:

indice di difficoltà: misurato da statistiche univariate che dicono quale è la proporzione di risposte alfa date in rapporto al quesito.
indice di discriminazione: misurato da un coefficiente di correlazione, sintetizza l'omogeneità tra quesito e scala.

Per garantire la buona qualità metrologica degli item, è inoltre importante controllare l'equiprobabilità delle alternative.

Interpretazione delle differenze di punteggio degli stessi soggetti
Nelle scale Wechsler ogni soggetto riceve 3 punteggi principali: QI Verbale, QI di Performance e QI Totale, e l'insieme di questi punteggi può essere definito un profilo.
Il QIV dovrebbe essere la stima dell'intelligenza cristallizzata e il QIP una stima dell'intelligenza fluida, e quando c'è una significativa differenza tra queste 2 intelligenze può significare negli anziani l'inizio della demenza e nei giovani qualche danno al sistema nervoso centrale.
E' quindi importante sapere quanto grande deve essere questa differenza per essere significativa, e per far ciò si usa l'errore standard, dato che nessun punteggio è perfettamente stabile ed oscilla tra una gamma, la cui ampiezza è definita dall'errore standard della misura, e quindi il calcolo di questo errore può far capire se la differenza tra i QI è dovuta al caso e quindi può non venir presa in considerazione, o se invece può essere un qualcosa di grave.

Oggi è un altro post

domenica 17 luglio 2016

Teoria e tecniche dei test (4/8): La concordanza tra più misure

<< Lezione precedente - Prossima lezione >>

Torna all'elenco delle lezioni