lunedì 25 aprile 2016

Attendibilità e validità (4/4): Validità

La validità riguarda la significatività del punteggio di un test, ciò che esso veramente significa.
La validità di un test è il grado di precisione e di accuratezza con cui esso misura ciò che si propone di misurare, si tratta quindi di un giudizio basato sull'appropriatezza delle inferenze, delle conclusioni che si possono effettuare a partire dai punteggi del test.
La validità può essere divisa in 3 categorie: validità di contenuto, validità di costrutto, validità in rapporto ad un criterio.
La validità di valutazione del contenuto e del costrutto servono a determinare se un test fornisce una valutazione precisa di uno specifico attributo o tratto, e definiscono la validità in termini di misurazione, mentre la validità rispetto ad un criterio definisce tale proprietà in termini di decisioni, dove un test è valido se può essere usato per prendere delle decisioni accurate.
Secondo Guion la validità di misurazione non è sempre necessaria e sufficiente per garantire la validità delle decisioni, ed è quindi importante considerare separatamente i più rilevanti aspetti del termine validità.

Validità esteriore o di facciata
Concerne quanto convincenti e rilevanti appaiono le prove che il soggetto deve affrontare, e quindi per valutare questo aspetto della validità bisogna mettersi nella prospettiva di chi si sottopone al test.
La motivazione del soggetto può influire sulla qualità delle risposte, ad esempio se una scala viene ritenuta particolarmente utile in una certa situazione non viene percepita come tale da chi risponde, e quindi il test può risultare inaffidabile.

Validità di contenuto
Riguarda quanto le prove o gli item del test riflettono e rappresentano il comportamento che il test vorrebbe valutare, e consiste in un giudizio che riguarda quanto adeguatamente un test costituisce un campione rappresentativo all'interno di un'area comportamentale che il test deve misurare.
La validità può essere anche compromessa dalla poca chiarezza e dalla equivocità della formulazione degli item.
Se il campione è rappresentativo della popolazione (usando tutti gli item possibili), allora il test ha una soddisfacente validità di contenuto.
Secondo Guion, per campionare correttamente gli item da inserire in un test, bisogna definire il campo di contenuto, che rappresenta la serie totale di comportamenti che potrebbero essere usati per valutare una specifica caratteristica.
Lawshe ha proposto una formula per quantificare il grado di consenso di un gruppo di esperti nel determinare la validità di contenuto di un test, dove l'abilità valutata dall'item può essere valutata: essenziale, utile ma non essenziale, non necessaria.
Secondo questo studioso, si può ritenere che ci sia un sufficiente grado di validità di contenuto quando più del 50% dei giudici ritiene l'item "essenziale".
La formula per il calcolo della validità del contenuto è la seguente:

formula

Dove NE è il numero di giudici che danno come voto "essenziale" ed N è il numero totale dei giudici.
Se la validità è negativa l'item è ritenuto essenziale da meno della metà degli esperti, se è uguale a zero è la metà dei giudici a ritenere l'item essenziale, se è maggiore di zero, più della metà dei giudici lo considerano l'item essenziale, e questo coefficiente va da .00 a .99.
Costruendo una specifica tabella di giudizi con 2 giudici:

Giudice 1
Debole pertinenza Forte pertinenza
Giudice 2 Debole pertinenza
A
B
Forte pertinenza
C
D

Al posto delle lettere vanno sostituiti il numero degli item, e si può calcolare il coefficiente di validità applicando la seguente formula:

formula

Validità di costrutto
Consiste in un giudizio sull'appropriatezza di deduzioni effettuate a partire dai punteggi di un test che misura una determinata variabile detta "costrutto".
Il costrutto è una costruzione scientifica, teorica, una categoria astratta, un'idea usata per spiegare o descrivere un comportamento, o per fare collegamenti logici (es. l'intelligenza, la personalità).
Per validità di costrutto si intende se il test è strettamente connesso con la struttura teorica e concettuale delle funzioni che esso vuole misurare, e questa validità viene controllata tramite ipotesi basate sulla natura della variabile da valutare.
I costrutti psicologici hanno 2 caratteristiche: non esiste un singolo e sufficiente referente esterno al test che permette di riconoscere come valida l'esistenza del costrutto, dalla teoria del costrutto si può derivare una serie di supposizioni tra loro connesse.
L'esplicazione del costrutto è il procedimento che descrive la relazione tra comportamenti concreti e costrutti astratti, ed è diviso in 3 fasi:
  1. Si identificano i comportamenti concreti che possono avere una relazione con il costrutto da misurare.
  2. Si individuano altri costrutti che possono essere collegati con questo.
  3. Si decide quali comportamenti hanno una relazione con ciscuno di questi costrutti extra e si determina se ciascun comportamento ha una relazione con il costrutto da misurare.
I punteggi del test vengono quindi correlati con misure oggettive del comportamento e i dati che emergono possono essere confrontati con il modello di risultati previsti sulla base delle esplicazioni del costrutto.
Secondo Guion, un gruppo di coefficienti di validità per un dato test possono essere interpretati individualmente come prove della validità legata ad un criterio, mentre presi nel loro insieme servono a provare la validità del costrutto.
I vari metodi consentono di capire se:
  • il test è omogeneo e misura un singolo costrutto
  • i punteggi aumentano o diminuiscono a seconda dell'aumentare dell'età dei soggetti o del passare del tempo
  • i punteggi ottenuti differiscono da quelli del pretest
  • i punteggi di gruppi distinti di soggetti variano
  • i punteggi del test correlano con quelli di altri test
Un'altra procedura molto usata per lo studio della validità del costrutto è l'analisi fattoriale.
L'omogeneità di un test, o coerenza interna, esprime il grado in cui un test misura un singolo concetto e può essere ricavata con i coefficienti di correlazione per ranghi di Spearman e con il coefficiente alfa di Cronbach.
Si hanno inoltre diversi cambiamenti con l'età ed il grado di abilità e competenza in un particolare costrutto esaminato dal test può variare nel tempo.
Si hanno anche cambiamenti pre e post-test, dove, i cambiamenti nei punteggi di un test dopo un'esperienza particolare possono essere considerati come una prova evidente della validità di costrutto dello stesso.
L'uso di gruppi distinti si basa sull'assunto che se il test è una misura valida di un certo costrutto teorico, i punteggi ottenuti da 2 gruppi di persone, che differiscono tra loro per questo costrutto, dovrebbero essere diversi in modo statisticamente significativo.
Nella procedura della validità convergente, il costrutto di un test può convergere con quello di altri test o di altre misure ideate per valutare lo stesso o un costrutto simile, e questa procedura di solito viene scelta per validare forme ridotte o parallele di un test.
Secondo il procedimento della validità discriminante si dovrebbe ottenere un basso livello di correlazione tra i punteggi al test e quelli di misura di altre variabili con le quali teoricamente ci si aspetta che il test non correli, ed in questo modo si può dimostrare che il test è immune dall'influenza di alcuni fattori.
La matrice multitratto-multimetodo di Campbell e Fiske consente di controllare la validità di un test, tenendo presente anche l'influenza sui punteggi del tipo di test usato.
Questa procedura usa più metodi e da luogo ad una matrice di correlazioni, dove ci si aspetta che le correlazioni tra i costrutti siano relativamente basse, più basse che se si misurasse con metodi diversi lo stesso costrutto.
Un buon test per misurare un determinato costrutto deve avere 3 caratteristiche:
  1. I punteggi nel test devono esser coerenti con quelli ottenuti con altri metodi di misura dello stesso costrutto.
  2. Le misure da esso fornite non devono correlare con altre che ci si aspetta che non correlino con il costrutto misurato.
  3. Il metodo di misura usato deve rilevare una ridotta presenza di biases.
La complessità del procedimento e la difficoltà dell'interpretazione dei punteggi ottenuti limita però la diffusione del metodo matrice multitratto.
L'analisi fattoriale è un procedimento che, partendo dalle risposte date da dei soggetti, permette di identificare delle caratteristiche psicologiche dette fattori, che non si vedono a prima vista, e che spiegano o influenzano le risposte di un test.
Lo scopo dell'analisi fattoriale è quindi quello di individuare i fattori che possono essere la causa delle correlazioni trai punteggi osservati, e in quest'analisi, gli autovalori sono gli indici statistici che sono in grado di rappresentare la relativa importanza di ogni fattore.
Son considerati buoni coefficienti superiori a .35.
L'analisi fattoriale è utile quando si vuole confermare una teoria formulata a priori (analisi confermatoria), ma è debole se si vuole costruire una teoria a partire dai risultati ottenuti da essa.

Validità di criterio
E' quella caratteristica di un test che permette di capire quanto adeguatamente il risultato può essere usato per prevedere la prestazione futura di un soggetto in una particolare attività o in un altro test.
Bisogna quindi valutare quanto i punteggi corrispondano a risultati di altre prove, tramite correlazione, con il coefficiente r di Pearson.
La scelta del coefficiente dipende cmq dal tipo di misure usate e potrebbe esser necessario ad esempio usare il rho di Spearman.
Per criterio si intende una misura diretta, ma esterna ed indipendente di ciò che il test vuole misurare, una misura effettuata con procedure diverse che costituisce un termine di riferimento per il test.
Il coefficiente di affidabilità del criterio e quello del test, limitano la grandezza del coefficiente di validità secondo questa regola:

formula

Dove: rxy è il coefficiente di validità, rxx è l'affidabilità del test e ryy è l'affidabilità del criterio.
Nella condizione ideale, i dati del criterio non dovrebbero essere contaminati, questa si verifica quando la misura del criterio è basata su misure di predizione.
Le strategie di verifica della validità di un criterio sono di due tipi: predittiva e concorrente.
La validità predittiva è considerato il procedimento più accurato, anche se ha maggiori problemi etici e pratici, e riguarda la situazione in cui i punteggi vengono rilevati in un certo tempo e correlati con misure di un criterio disponibili successivamente. Si hanno 2 fasi: si applica il test a dei soggetti, e dopo un certo periodo di tempo si raccolgono misure della prestazione degli stessi soggetti e si correlano con i punteggi nel test, ottenendo così un coefficiente di validità predittiva che esprime la probabilità di predire le prestazioni future dei soggetti.
La validità concorrente consiste invece nell'ottenere sia i punteggi di un test sia quelli di un criterio in una specifica popolazione, calcolando la correlazione tra queste serie di dati.
Il coefficiente di validità predittiva è ottenuto in un campione casuale della popolazione, mentre quello della validità concorrente è ottenuto da un campione preselezionato che può differire dalla popolazione generale, e per questo motivo è preferibile usare la validità predittiva.
Il coefficiente di validità concorrente è meno valido più piccola è la gamma dei punteggi osservati, e questo riduce la validità del test quando si devono prendere decisioni relative alla popolazione generale.

Validità e meta-analisi
La meta-analisi è un metodo per combinare i risultati di molte ricerche di autori diversi sullo stesso argomento.
Questo procedimento consente di stimare la media dei coefficienti di validità ottenuti da autori diversi sullo stesso test, ed i risultati di ogni studio devono essere ponderati in funzione della grandezza del campione di soggetti.
Per poter combinare questi dati è cmq necessario che essi presentino una precisa e omogenea definizione del costrutto misurato dal test, e che utilizzino analoghe misure del criterio.
Questo tipo di esame è dunque utile per valutare la validità del criterio di qualsiasi tipo di misurazione.

Interpretazione del coefficiente di validità
La validità di un criterio è una stima della correlazione tra i punteggi del test e la misura del criterio, e spesso questi coefficienti risultano abbastanza bassi, tanto che è difficile trovare coefficienti maggiori di .30.
Ad esempio, un coefficiente di .27 indica che circa il 7% della validità delle misure di performance di una prestazione, può essere previsto a partire dai punteggi del test.
L'effetto del test sulla qualità delle decisioni dello psicologo non dipende solo dalla validità, ma anche da altri fattori, e quindi possono esistere casi con validità alta ma lo stesso di poca qualità decisionale.

Test e decisioni
Il test è solo uno dei fattori che in situazioni di selezione può determinare la qualità delle decisioni, altri 2 fattori da considerare sono il livello base e il rapporto di selezione.
Il livello base (LB) è la percentuale di soggetti che si pensa possa raggiungere il successo, dove se ad esempio il 95% dei candidati supera un test, il livello base corrisponde a .95.
Il rapporto di selezione (RS) è invece il rapporto tra posti e candidati, dove ad esempio, se 50 persone sono candidate per 5 posti, il rapporto è del 10%, e quindi questo rapporto indica quanto bisogna essere selettivi nelle proprie decisioni.
Quando si prendono delle decisioni si possono avere veri positivi (VP), falsi positivi (FP), veri negativi (VN), falsi negativi (FN), dove i veri positivi sono i candidati che rispettano le previsioni di successo, i falsi positivi sono quelli che deludono le previsioni di successo, i veri negativi sono quelli che rispettano le previsioni di insuccesso e i falsi negativi sono i successi inaspettati.
Di solito, un test è molto efficace nel migliorare la qualità globale delle decisioni quando il livello base è circa .50, consentendo di minimizzare gli errori e di fare delle scelte accurate, inoltre, se si ha un rapporto di selezione alto (tipo .80), significa che ci sono poche persone da scartare.
Quando la precisione è presa in maniera casuale, i vari falsi negativi, veri positivi ecc... possono essere desunti dal livello di base e dal tasso di selezione con la formula: P(VP)=LB*RS.
Quando viene usato un test valido, la probabilità di veri positivi aumenta secondo questa formula:

formula

Usando come riferimento la seguente tabella decisionale:

LIVELLO
successo
FN VP
PRESTAZIONE
fallimento
VN FP
Respinti
(fallimento previsto)
Accettati
(successo previsto)
DECISIONE

In generale, quando la validità è zero, la probabilità di veri positivi è uguale a quella del caso.

Affidabilità e validità di un test
Quasi mai i test sono perfettamente coerenti ed affidabili, e la mancanza di affidabilità pregiudica la validità delle inferenze fatte sui risultati.
Di conseguenza un test poco affidabile è anche poco valido per valutare le caratteristiche di una persona o per predire le prestazioni in uno specifico criterio, però bisogna anche dire che se un test è affidabile non è necessariamente anche valido.
La teoria del punteggio vero di Spearman afferma che gli errori di misura attenuano la correlazione tra 2 test X e Y e quindi la validità delle predizioni, quindi la correlazione tra misure inaffidabili di X e Y è più bassa rispetto a quella di punteggi coerenti.
La correlazione per attenuazione si calcola con la seguente formula:

formula

Dove: r'xy è il coefficiente di validità corretto per attenuazione, rxx è il coefficiente di attendibilità del test X, ryy quello del test Y, rxy è il coefficiente di validità del test X.
Per valutare invece l'effetto dell'incremento dell'affidabilità di uno o di tutti e 2 i test sulla loro correlazione, si usa la seguente formula:

formula

Dove: r'xy è il coefficiente di validità corretto in base al nuovo coefficiente di attendibilità del test X o Y, rxy è il coefficiente di validità del test X, r'xx è il nuovo coefficiente di attendibilità del test X, r'yy quello nuovo del test Y, rxx è il precedente coefficiente di attendibilità del test X, ryy è il precedente del test Y.

Equità e bias di un test
Il termine bias indica la presenza, in un test, di un fattore che impedisce una misurazione accurata ed imparziale.
Il bias implica una variazione sistematica e non casuale nei punteggi del test, e son stati individuati 3 tipi di bias: dell'item, intrinseco e estrinseco.
Il bias dell'item si ha all'interno dei singoli item del test.
Il bias intrinseco al test si ha quando questo mostra differenze statisticamente significative tra i punteggi medi di 2 gruppi di soggetti dovute alle caratteristiche del test e non a differenze tra i 2 gruppi nel tratto o nella funzione misurata.
Questo bias può anche essere dovuto ad un bias presente nel criterio rispetto al quale il potere predittivo del test viene validato.
Il bias estrinseco è dovuto a fonti esterne al test, ed è il bias più frequentemente riscontrato.
Si può avere quando decisioni non eque vengono prese pur applicando correttamente un test, quando ad esempio 2 gruppi diversi di soggetti ottengono punteggi diversi in un test dovuti alle differenze preesistenti proprio nei gruppi, ma che non rappresentano l'oggetto di valutazione del test.

<< Lezione precedente


Torna all'elenco delle lezioni

 

Piaciuto l'articolo? Lascia un commento!

EmoticonEmoticon