Les théories des tests : la TCT et la TRI

En psychologie, on utilise des tests en tant qu’instruments de mesure. Tout comme nous utilisons un mètre pour mesurer une longueur, nous pourrions nous servir d’un test pour mesurer l’intelligence, la mémoire, l’attention… Mais l’une des différences entre l’une et l’autre de ces actions est que les tests ne sont pas si simples à construire et à appliquer.

Par ailleurs, une seule mesure ne nous permet pas de parler du volume d’un objet. La même chose se produit pour les tests : l’administration d’un seul d’entre eux ne nous permet pas de fixer un diagnostic ou de proposer une intervention. Les tests sont donc importants pour l’évaluation mais ne la déterminent pas.

C’est là que le psychologue joue un rôle extrêmement important : d’une certaine façon, il doit utiliser l’information qu’il a obtenue du test et d’autres sources pour parvenir à une évaluation cohérente, qui peut déboucher sur une intervention. Pour le dire d’une autre façon, c’est au moment où il faut analyser les résultats de différentes sources que l’on reconnaît la qualité d’un professionnel. Nous parlons ici d’un savoir-faire qui s’acquiert à travers l’étude et les connaissances, mais aussi avec l’expérience.

Brève histoire des théories des tests

L’origine des tests remonte à l’époque des empereurs chinois, dans les années 3000 av. J-C. Ces empereurs réalisaient des tests pour évaluer les compétences professionnelles des officiers qui allaient travailler pour eux.

Les tests actuels sont nés de ceux effectués par Galton (1822-1911) dans son laboratoire. Cependant, c’est bien James Cattell qui a utilisé pour la première fois le terme de test mental en 1890. Etant donné que ces premiers tests n’indiquaient pas réellement la capacité cognoscitive de l’être humain, des chercheurs comme Binet et Simon (1905) ont introduit, dans leur nouvelle échelle, des tâches cognoscitives pour évaluer des aspects comme le jugement, la compréhension et le raisonnement.

L’échelle de Binet ouvre une tradition d’échelles individuelles. En plus des tests cognoscitifs, de grandes avancées ont lieu au niveau des tests de personnalité.

Pourquoi les théories des tests sont-elles nécessaires ?

Devant tous les progrès effectués, des théories de mesure (théories des tests) ont commencé à se développer et à affecter les tests en tant qu’instruments. Dans le but de les voir mesurer ce que nous voulons qu’ils mesurent, avec une marge d’erreur moindre, la psychométrie est apparue. La psychométrie exige que tous les tests ou instruments de mesure soient valides et fiables.

Souvenons-nous que la fiabilité est comprise en tant que stabilité ou cohérence des mesures au fur et à mesure que le processus de mesure se répète. La validité, elle, fait référence à la mesure selon laquelle les preuves empiriques et la théorie soutiennent l’interprétation des résultats du test.

Il y a donc deux grandes théories des tests quand nous parlons d’analyser et de construire ce type d’instruments : la théorie classique des tests (TCT) et la théorie de la réponse aux items (TRI).

La théorie classique des tests (TCT)

Il s’agit de la théorie dominante au niveau de la construction et de l’analyse des tests. Il est relativement simple de construire des tests qui respectent les exigences de ce paradigme. Tout comme il est relativement simple d’évaluer ce test en fonction des paramètres cités : fiabilité et validité.

Elle est née des travaux de Spearman au début du XXème siècle. Ensuite, en 1968, les chercheurs Lord et Novick l’ont reformulée et en sont arrivés à la nouvelle approche de la TRI.

Cette théorie se base sur un modèle linéaire classique. Ce modèle a été proposé par Spearman : le score qu’une personne obtient à la suite d’un test, que nous appelons score empirique et que nous désignons par la lettre X, s’appuie sur deux composantes.

D’un côté, nous retrouvons le score vrai du sujet au test (V) et, de l’autre, l’erreur (e). On l’exprime de la façon suivante : X = V + e.

Spearman ajoute trois hypothèses à cette théorie :

Premièrement, le score vrai (V) est l’espérance mathématique du score empirique. Il s’agit du score qu’obtiendrait une personne si elle réalisait ce test un nombre infini de fois.
Il n’existe pas de relation entre le nombre de vrais scores et l’importance des erreurs qui affectent ces scores.
Enfin, les erreurs de mesure dans un test ne sont pas liées aux erreurs de mesure d’un autre test.

Pour conclure cette théorie, Spearman définit les tests parallèles comme ceux qui mesurent la même chose mais avec des items différents.

Limites de l’approche classique

La première limite est que, dans cette théorie, les mesures ne sont pas invariantes en fonction de l’instrument utilisé. Cela veut dire que si un psychologue évalue l’intelligence de trois personnes avec un test différent à chaque fois, les résultats ne sont pas comparables. Pourquoi ?

Les résultats des trois instruments de mesure ne sont pas à la même échelle : chaque test a sa propre échelle. Pour pouvoir comparer, par exemple, l’intelligence de X personnes qui ont été évaluées avec des tests d’intelligence différents, il est nécessaire de transformer les scores directement obtenus du test en autres barèmes.

Le problème est qu’en transformant les scores en barèmes, nous assumons l’idée que les groupes normatifs où sont élaborés les barèmes des différents tests sont comparables -même mesure, même déviation typique-, ce qui est difficile à garantir dans la pratique. La nouvelle approche de la TRI a donc supposé un énorme progrès par rapport à ce point. Avec elle, les résultats obtenus à travers différents instruments seront à la même échelle.

La seconde limite de cette approche est l’absence d’invariance des propriétés des tests par rapport aux personnes qui l’estiment. Ainsi, dans le cadre de la TCT, les propriétés psychométriques des tests dépendent du type d’échantillon utilisé pour les calculer. Ce point trouve aussi une solution, même partielle, dans l’approche de la TRI.

La théorie de la réponse aux items (TRI)

La théorie de la réponse aux items (TRI) est née comme complément de la théorie des tests classique. En d’autres termes, la TCT et la TRI pourraient évaluer un même test et établir un score pour chacun des items, ce qui pourrait déboucher sur un résultat distinct pour chaque personne. La TRI nous fournit des instruments mieux calibrés, mais elle implique des dépenses plus élevées et la participation de professionnels spécialisés.

La TRI renferme plusieurs hypothèses, mais la plus importante est peut-être celle qui nous dit que n’importe quel instrument de mesure devrait être en consonance avec une idée : il existe une relation fonctionnelle entre les valeurs de la variable qui mesurent les items et la probabilité de les réussir. Cette fonction s’appelle la Courbe caractéristique de l’item (CCI). Que supposons-nous alors ?

Une chose qui peut sembler très logique et que la TCT n’évalue pas. Par exemple, les items les plus difficiles sont ceux auxquels seules les personnes les plus intelligentes peuvent répondre. Un item auquel toutes les personnes répondent n’aurait aucune utilité. Il ne donnerait aucun type d’information. Ce n’est qu’un petit échantillon de ce que propose la TRI.

Pour conclure, même si ces deux théories sont presque contemporaines, la TRI semble être née en tant que réponse aux limites ou problèmes développés par la TCT. Cependant, il y a encore beaucoup de recherches à mener dans ce domaine de la psychométrie.