La
validità riguarda la significatività del punteggio di un test, ciò che esso veramente significa.
La validità di un test è il grado di precisione e di accuratezza con cui
esso misura ciò che si propone di misurare, si tratta quindi di un
giudizio basato sull'appropriatezza delle inferenze, delle conclusioni
che si possono effettuare a partire dai punteggi del test.
La validità può essere divisa in 3 categorie:
validità di contenuto, validità di costrutto, validità in rapporto ad un criterio.
La validità di valutazione del contenuto e del costrutto servono a
determinare se un test fornisce una valutazione precisa di uno specifico
attributo o tratto, e definiscono la validità in termini di
misurazione, mentre la validità rispetto ad un criterio definisce tale
proprietà in termini di decisioni, dove un test è valido se può essere
usato per prendere delle decisioni accurate.
Secondo
Guion la validità di misurazione non è sempre necessaria e
sufficiente per garantire la validità delle decisioni, ed è quindi
importante considerare separatamente i più rilevanti aspetti del termine
validità.
Validità esteriore o di facciata
Concerne quanto convincenti e rilevanti appaiono le prove che il
soggetto deve affrontare, e quindi per valutare questo aspetto della
validità bisogna mettersi nella prospettiva di chi si sottopone al test.
La motivazione del soggetto può influire sulla qualità delle risposte,
ad esempio se una scala viene ritenuta particolarmente utile in una
certa situazione non viene percepita come tale da chi risponde, e quindi
il test può risultare inaffidabile.
Validità di contenuto
Riguarda quanto le prove o gli item del test riflettono e rappresentano
il comportamento che il test vorrebbe valutare, e consiste in un
giudizio che riguarda quanto adeguatamente un test costituisce un
campione rappresentativo all'interno di un'area comportamentale che il
test deve misurare.
La validità può essere anche compromessa dalla poca chiarezza e dalla equivocità della formulazione degli item.
Se il campione è rappresentativo della popolazione (usando tutti gli
item possibili), allora il test ha una soddisfacente validità di
contenuto.
Secondo
Guion, per campionare correttamente gli item da inserire
in un test, bisogna definire il campo di contenuto, che rappresenta la
serie totale di comportamenti che potrebbero essere usati per valutare
una specifica caratteristica.
Lawshe ha proposto una formula per quantificare il grado di
consenso di un gruppo di esperti nel determinare la validità di
contenuto di un test, dove l'abilità valutata dall'item può essere
valutata: essenziale, utile ma non essenziale, non necessaria.
Secondo questo studioso, si può ritenere che ci sia un sufficiente grado
di validità di contenuto quando più del 50% dei giudici ritiene l'item
"essenziale".
La formula per il calcolo della validità del contenuto è la seguente:
Dove NE è il numero di giudici che danno come voto "essenziale" ed N è il numero totale dei giudici.
Se la validità è negativa l'item è ritenuto essenziale da meno della
metà degli esperti, se è uguale a zero è la metà dei giudici a ritenere
l'item essenziale, se è maggiore di zero, più della metà dei giudici lo
considerano l'item essenziale, e questo coefficiente va da .00 a .99.
Costruendo una specifica tabella di giudizi con 2 giudici:
|
|
Giudice 1
|
|
|
Debole pertinenza |
Forte pertinenza |
Giudice 2 |
Debole pertinenza |
A
|
B
|
Forte pertinenza |
C
|
D
|
Al posto delle lettere vanno sostituiti il numero degli item, e si
può calcolare il coefficiente di validità applicando la seguente
formula:
Validità di costrutto
Consiste in un giudizio sull'appropriatezza di deduzioni effettuate a
partire dai punteggi di un test che misura una determinata variabile
detta "costrutto".
Il costrutto è una costruzione scientifica, teorica, una categoria
astratta, un'idea usata per spiegare o descrivere un comportamento, o
per fare collegamenti logici (es. l'intelligenza, la personalità).
Per validità di costrutto si intende se il test è strettamente connesso
con la struttura teorica e concettuale delle funzioni che esso vuole
misurare, e questa validità viene controllata tramite ipotesi basate
sulla natura della variabile da valutare.
I costrutti psicologici hanno 2 caratteristiche: non esiste un singolo e
sufficiente referente esterno al test che permette di riconoscere come
valida l'esistenza del costrutto, dalla teoria del costrutto si può
derivare una serie di supposizioni tra loro connesse.
L'
esplicazione del costrutto è il procedimento che descrive la relazione tra comportamenti concreti e costrutti astratti, ed è diviso in 3 fasi:
- Si identificano i comportamenti concreti che possono avere una relazione con il costrutto da misurare.
- Si individuano altri costrutti che possono essere collegati con questo.
- Si decide quali comportamenti hanno una relazione con ciscuno di
questi costrutti extra e si determina se ciascun comportamento ha una
relazione con il costrutto da misurare.
I punteggi del test vengono quindi correlati con misure oggettive del
comportamento e i dati che emergono possono essere confrontati con il
modello di risultati previsti sulla base delle esplicazioni del
costrutto.
Secondo
Guion, un gruppo di coefficienti di validità per un dato
test possono essere interpretati individualmente come prove della
validità legata ad un criterio, mentre presi nel loro insieme servono a
provare la validità del costrutto.
I vari metodi consentono di capire se:
- il test è omogeneo e misura un singolo costrutto
- i punteggi aumentano o diminuiscono a seconda dell'aumentare dell'età dei soggetti o del passare del tempo
- i punteggi ottenuti differiscono da quelli del pretest
- i punteggi di gruppi distinti di soggetti variano
- i punteggi del test correlano con quelli di altri test
Un'altra procedura molto usata per lo studio della validità del costrutto è l'analisi fattoriale.
L'
omogeneità di un test, o coerenza interna, esprime il grado in
cui un test misura un singolo concetto e può essere ricavata con i
coefficienti di correlazione per ranghi di Spearman e con il
coefficiente alfa di Cronbach.
Si hanno inoltre diversi
cambiamenti con l'età ed il grado di abilità e competenza in un particolare costrutto esaminato dal test può variare nel tempo.
Si hanno anche
cambiamenti pre e post-test, dove, i cambiamenti
nei punteggi di un test dopo un'esperienza particolare possono essere
considerati come una prova evidente della validità di costrutto dello
stesso.
L'
uso di gruppi distinti si basa sull'assunto che se il test è
una misura valida di un certo costrutto teorico, i punteggi ottenuti da 2
gruppi di persone, che differiscono tra loro per questo costrutto,
dovrebbero essere diversi in modo statisticamente significativo.
Nella procedura della
validità convergente, il costrutto di un
test può convergere con quello di altri test o di altre misure ideate
per valutare lo stesso o un costrutto simile, e questa procedura di
solito viene scelta per validare forme ridotte o parallele di un test.
Secondo il procedimento della
validità discriminante si dovrebbe
ottenere un basso livello di correlazione tra i punteggi al test e
quelli di misura di altre variabili con le quali teoricamente ci si
aspetta che il test non correli, ed in questo modo si può dimostrare che
il test è immune dall'influenza di alcuni fattori.
La
matrice multitratto-multimetodo di Campbell e Fiske consente di controllare la validità di un test, tenendo presente anche l'influenza sui punteggi del tipo di test usato.
Questa procedura usa più metodi e da luogo ad una matrice di
correlazioni, dove ci si aspetta che le correlazioni tra i costrutti
siano relativamente basse, più basse che se si misurasse con metodi
diversi lo stesso costrutto.
Un buon test per misurare un determinato costrutto deve avere 3 caratteristiche:
- I punteggi nel test devono esser coerenti con quelli ottenuti con altri metodi di misura dello stesso costrutto.
- Le misure da esso fornite non devono correlare con altre che ci si aspetta che non correlino con il costrutto misurato.
- Il metodo di misura usato deve rilevare una ridotta presenza di biases.
La complessità del procedimento e la difficoltà dell'interpretazione
dei punteggi ottenuti limita però la diffusione del metodo matrice
multitratto.
L'
analisi fattoriale è un procedimento che, partendo dalle
risposte date da dei soggetti, permette di identificare delle
caratteristiche psicologiche dette fattori, che non si vedono a prima
vista, e che spiegano o influenzano le risposte di un test.
Lo scopo dell'analisi fattoriale è quindi quello di individuare i
fattori che possono essere la causa delle correlazioni trai punteggi
osservati, e in quest'analisi, gli autovalori sono gli indici statistici
che sono in grado di rappresentare la relativa importanza di ogni
fattore.
Son considerati buoni coefficienti superiori a .35.
L'analisi fattoriale è utile quando si vuole confermare una teoria
formulata a priori (analisi confermatoria), ma è debole se si vuole
costruire una teoria a partire dai risultati ottenuti da essa.
Validità di criterio
E' quella caratteristica di un test che permette di capire quanto
adeguatamente il risultato può essere usato per prevedere la prestazione
futura di un soggetto in una particolare attività o in un altro test.
Bisogna quindi valutare quanto i punteggi corrispondano a risultati di altre prove, tramite correlazione, con il coefficiente
r di Pearson.
La scelta del coefficiente dipende cmq dal tipo di misure usate e potrebbe esser necessario ad esempio usare il
rho di Spearman.
Per
criterio si intende una misura diretta, ma esterna ed
indipendente di ciò che il test vuole misurare, una misura effettuata
con procedure diverse che costituisce un termine di riferimento per il
test.
Il coefficiente di affidabilità del criterio e quello del test, limitano
la grandezza del coefficiente di validità secondo questa regola:
Dove: r
xy è il coefficiente di validità, r
xx è l'affidabilità del test e r
yy è l'affidabilità del criterio.
Nella condizione ideale, i dati del criterio non dovrebbero essere
contaminati, questa si verifica quando la misura del criterio è basata
su misure di predizione.
Le
strategie di verifica della validità di un criterio sono di due tipi: predittiva e concorrente.
La
validità predittiva è considerato il procedimento più
accurato, anche se ha maggiori problemi etici e pratici, e riguarda la
situazione in cui i punteggi vengono rilevati in un certo tempo e
correlati con misure di un criterio disponibili successivamente. Si
hanno 2 fasi: si applica il test a dei soggetti, e dopo un certo periodo
di tempo si raccolgono misure della prestazione degli stessi soggetti e
si correlano con i punteggi nel test, ottenendo così un coefficiente di
validità predittiva che esprime la probabilità di predire le
prestazioni future dei soggetti.
La
validità concorrente consiste invece nell'ottenere sia i
punteggi di un test sia quelli di un criterio in una specifica
popolazione, calcolando la correlazione tra queste serie di dati.
Il coefficiente di validità predittiva è ottenuto in un campione casuale
della popolazione, mentre quello della validità concorrente è ottenuto
da un campione preselezionato che può differire dalla popolazione
generale, e per questo motivo è preferibile usare la validità
predittiva.
Il coefficiente di validità concorrente è meno valido più piccola è la
gamma dei punteggi osservati, e questo riduce la validità del test
quando si devono prendere decisioni relative alla popolazione generale.
Validità e meta-analisi
La
meta-analisi è un metodo per combinare i risultati di molte ricerche di autori diversi sullo stesso argomento.
Questo procedimento consente di stimare la media dei coefficienti di
validità ottenuti da autori diversi sullo stesso test, ed i risultati di
ogni studio devono essere ponderati in funzione della grandezza del
campione di soggetti.
Per poter combinare questi dati è cmq necessario che essi presentino una
precisa e omogenea definizione del costrutto misurato dal test, e che
utilizzino analoghe misure del criterio.
Questo tipo di esame è dunque utile per valutare la validità del criterio di qualsiasi tipo di misurazione.
Interpretazione del coefficiente di validità
La validità di un criterio è una stima della correlazione tra i punteggi
del test e la misura del criterio, e spesso questi coefficienti
risultano abbastanza bassi, tanto che è difficile trovare coefficienti
maggiori di .30.
Ad esempio, un coefficiente di .27 indica che circa il 7% della validità
delle misure di performance di una prestazione, può essere previsto a
partire dai punteggi del test.
L'effetto del test sulla qualità delle decisioni dello psicologo non
dipende solo dalla validità, ma anche da altri fattori, e quindi possono
esistere casi con validità alta ma lo stesso di poca qualità
decisionale.
Test e decisioni
Il test è solo uno dei fattori che in situazioni di selezione può
determinare la qualità delle decisioni, altri 2 fattori da considerare
sono il livello base e il rapporto di selezione.
Il
livello base (LB) è la percentuale di soggetti che si pensa
possa raggiungere il successo, dove se ad esempio il 95% dei candidati
supera un test, il livello base corrisponde a .95.
Il
rapporto di selezione (RS) è invece il rapporto tra posti e
candidati, dove ad esempio, se 50 persone sono candidate per 5 posti, il
rapporto è del 10%, e quindi questo rapporto indica quanto bisogna
essere selettivi nelle proprie decisioni.
Quando si prendono delle decisioni si possono avere
veri positivi (VP), falsi positivi (FP), veri negativi (VN), falsi negativi (FN),
dove i veri positivi sono i candidati che rispettano le previsioni di
successo, i falsi positivi sono quelli che deludono le previsioni di
successo, i veri negativi sono quelli che rispettano le previsioni di
insuccesso e i falsi negativi sono i successi inaspettati.
Di solito, un test è molto efficace nel migliorare la qualità globale
delle decisioni quando il livello base è circa .50, consentendo di
minimizzare gli errori e di fare delle scelte accurate, inoltre, se si
ha un rapporto di selezione alto (tipo .80), significa che ci sono poche
persone da scartare.
Quando la precisione è presa in maniera casuale, i vari falsi negativi,
veri positivi ecc... possono essere desunti dal livello di base e dal
tasso di selezione con la formula:
P(VP)=LB*RS.
Quando viene usato un test valido, la probabilità di veri positivi aumenta secondo questa formula:
Usando come riferimento la seguente tabella decisionale:
LIVELLO
successo |
FN |
VP |
PRESTAZIONE
fallimento |
VN |
FP |
|
Respinti
(fallimento previsto) |
Accettati
(successo previsto) |
|
DECISIONE |
In generale, quando la validità è zero, la probabilità di veri positivi è uguale a quella del caso.
Affidabilità e validità di un test
Quasi mai i test sono perfettamente coerenti ed affidabili, e la
mancanza di affidabilità pregiudica la validità delle inferenze fatte
sui risultati.
Di conseguenza un test poco affidabile è anche poco valido per valutare
le caratteristiche di una persona o per predire le prestazioni in uno
specifico criterio, però bisogna anche dire che se un test è affidabile
non è necessariamente anche valido.
La
teoria del punteggio vero di Spearman afferma che gli errori
di misura attenuano la correlazione tra 2 test X e Y e quindi la
validità delle predizioni, quindi la correlazione tra misure
inaffidabili di X e Y è più bassa rispetto a quella di punteggi
coerenti.
La
correlazione per attenuazione si calcola con la seguente formula:
Dove: r'
xy è il coefficiente di validità corretto per attenuazione, r
xx è il coefficiente di attendibilità del test X, r
yy quello del test Y, r
xy è il coefficiente di validità del test X.
Per valutare invece l'effetto dell'incremento dell'affidabilità di uno o
di tutti e 2 i test sulla loro correlazione, si usa la seguente
formula:
Dove: r'
xy è il coefficiente di validità corretto in base al nuovo coefficiente di attendibilità del test X o Y, r
xy è il coefficiente di validità del test X, r'
xx è il nuovo coefficiente di attendibilità del test X, r'
yy quello nuovo del test Y, r
xx è il precedente coefficiente di attendibilità del test X, r
yy è il precedente del test Y.
Equità e bias di un test
Il termine bias indica la presenza, in un test, di un fattore che impedisce una misurazione accurata ed imparziale.
Il bias implica una variazione sistematica e non casuale nei punteggi
del test, e son stati individuati 3 tipi di bias: dell'item, intrinseco e
estrinseco.
Il
bias dell'item si ha all'interno dei singoli item del test.
Il
bias intrinseco al test si ha quando questo mostra differenze
statisticamente significative tra i punteggi medi di 2 gruppi di
soggetti dovute alle caratteristiche del test e non a differenze tra i 2
gruppi nel tratto o nella funzione misurata.
Questo bias può anche essere dovuto ad un bias presente nel criterio
rispetto al quale il potere predittivo del test viene validato.
Il
bias estrinseco è dovuto a fonti esterne al test, ed è il bias più frequentemente riscontrato.
Si può avere quando decisioni non eque vengono prese pur applicando
correttamente un test, quando ad esempio 2 gruppi diversi di soggetti
ottengono punteggi diversi in un test dovuti alle differenze
preesistenti proprio nei gruppi, ma che non rappresentano l'oggetto di
valutazione del test.