La définition de Psychométrie

La psychométrie désigne la théorie et la technologie des instruments de mesure en psychologie. Elle concerne tout le champ des mesures effectuées en psychologie, y compris celles qui sont effectuées dans les expériences de laboratoire.

Les problèmes relatifs à la mesure

L'intérêt à l'égard des problèmes posés par les opérations de mesure s'est surtout développé par la suite en psychologie différentielle à propos des tests, au point que les deux expressions méthode des tests et méthodes psychométriques sont parfois considérées comme synonymes. Mais, à une date plus récente, les sciences sociales ont pris conscience de l'importance de ces problèmes, qui sont maintenant souvent discutés en psychologie sociale, en sociologie, en économie. De fait, aujourd'hui, les contributions théoriques et méthodologiques avancées proviennent souvent à l'heure actuelle de chercheurs travaillant dans ces disciplines.
Il existe différentes théories psychométriques concernant, elles, les instruments et les méthodes par lesquels des opérations de mesure peuvent être réalisées. La plus ancienne, parfois qualifiée de classique, pose que chaque note observée représente la somme d'une note vraie et d'une erreur aléatoire. La note vraie se définit par la moyenne des notes observées qui seraient obtenues si l'on pouvait réaliser avec l'instrument considéré un nombre infini de mesures indépendantes sur la même personne. Elle reste donc toujours inconnue. Chacune des notes observées diffère de la note vraie par une certaine quantité, l'erreur. Si cette erreur est aléatoire, elle suscite une distribution des notes observées qui est symétrique autour de la note vraie, la somme de l'ensemble des erreurs tendant vers 0. Cette théorie n'est que l'application à la psychologie d'une théorie générale des opérations de mesure. Elle a été développée, en psychologie, notamment par Harold Gulliksen.
Un modèle théorique plus récent peut être considéré comme un développement du précédent. Il pose essentiellement que la probabilité de fournir la réponse exacte à un item dépend de la position que le sujet interrogé occupe sur un trait latent (c'est-à-dire une caractéristique non directement observable qui est l'objet de la mesure), de la liaison (le coefficient de régression) de la réponse à l'item avec ce trait et d'une erreur aléatoire. On voit que, par rapport au modèle précédent, la note vraie est remplacée par la position de l'individu sur le trait latent, position qui se manifeste par une fonction, caractéristique de chaque item, de ce trait latent. Ce modèle a été développé par le mathématicien danois Georg Rasch.
Un troisième modèle théorique pose qu'il existe un univers de réponses élémentaires dont on peut extraire des échantillons au hasard. On peut ainsi concevoir, selon des facettes différentes, l'univers des réponses qui seraient faites par l'individu à tous les items possibles d'aptitude numérique par exemple, l'univers des réponses qui seraient faites en toutes les occasions possibles ou telles qu'elles seraient évaluées par tous les notateurs possibles, etc... On peut alors utiliser, d'une part, la notion de note d'univers, qui serait celle de l'individu si l'on disposait de l'univers de ses réponses pour une certaine facette, et d'autre part, la notion de généralisabilité des estimations faites lorsqu'on ne dispose que d'un nombre limité de telles réponses (ce qui est évidemment toujours le cas), considéré comme un échantillon au hasard extrait de l'univers des réponses théoriquement observables. Cette théorie de la généralisabilité a été formulée et développée par Lee Cronbach.

L'analyse d'un test déjà existant

Les questions psychométriques qu'est appelé à se poser un psychologue ayant décidé d'utiliser un test déjà existant portent de façon générale sur l'adéquation de cet instrument à la population à laquelle il va être appliqué. Aussi, une première application faite à titre d'essai sur un échantillon représentatif extrait de cette population, sans utilisation pratique des résultats, permet d'apporter des éléments de réponse à ces questions.

Le pouvoir classificateur d'un test

La première question technique que pose l'utilisation d'un test porte sur son pouvoir classant, c'est-à-dire la propriété qu'il possède à un degré plus ou moins grand de différencier les individus auxquels on l'applique. On observe cette propriété en établissant la distribution des notes au test: elle doit être suffisamment étalée pour l'usage auquel on destine l'épreuve.
On a parfois considéré que la distribution des résultats devait être voisine de la distribution normale de Laplace-Gauss. Il est surtout souhaitable que les fréquences des notes observées soient faibles dans la région de l'échelle des notes où les différenciations entre sujets prennent une importance pratique. En effet, si une coupure doit être établie dans la population (réussite ou échec à un examen, sujets relevant ou non d'un traitement spécial, etc...), il est souhaitable qu'un léger changement dans cette localisation n'entraîne pas le passage d'un trop grand nombre de sujets d'une catégorie à l'autre.
La distribution des résultats du test appliqué à un échantillon représentatif de la population à laquelle on le destine permet aussi de vérifier que les normes correspondent bien à cette population. Ce n'est pas nécessairement le cas si le constructeur du test l'a étalonné sur une population différente. On vérifie donc que les proportions de sujets dépassant, dans l'échantillon examiné, chacun des degrés de l'étalonnage fourni correspondent suffisamment aux proportions théoriques.

La liaison entre le test et le critère

Si les applications envisagées impliquent l'usage d'un critère (par exemple, la réussite scolaire), on pourra se demander s'il existe une liaison suffisante entre le test et le critère. Si l'un et l'autre sont évalués à la même date, il s'agira de la validité concourante du test ou, plus strictement, de l'interprétation que l'on fera des résultats de ce test. Si un certain décalage temporel existe entre le test et le critère (par exemple, test passé en début d'année scolaire, résultats des mêmes élèves observés en fin d'année), il s'agira de la validité prédictive de l'épreuve). Ces pronostics se fondent en général sur plusieurs tests et sont fournis par l'équation de régression multiple du critère sur ces tests. Le choix et la pondération des prédicteurs ayant été faits sur un certain échantillon de sujets, il conviendra de vérifier la validité prédictive de la batterie ainsi établie sur un second échantillon afin de s'assurer que les premiers résultats n'étaient pas fondés sur des particularités du premier échantillon.
Dans certains cas, on pourra être amené à vérifier également la validité de contenu de l'épreuve. Il s'agit de savoir si ses questions sont représentatives du domaine que l'on souhaite examiner. Cette notion, dont on voit qu'elle implique celle d'échantillonnage des items, n'a de sens précis que dans les épreuves de connaissances. En effet, un test de mathématiques pour la classe de troisième doit en principe comporter des questions relatives à tous les points du programme de cette classe si l'on cherche à obtenir une évaluation globale du niveau en mathématiques des individus.

La stabilité des résultats

On pourra aussi se demander si le test, dans les conditions où il va être utilisé, fournit des résultats relativement stables. On pourra pour cela appliquer deux fois le test à un même groupe de sujets, par exemple, à une semaine d'intervalle, et calculer la corrélation entre ces deux séries de résultats. Cette corrélation évalue la fidélité test-retest, ou stabilité de l'épreuve. On voit comment cette fidélité peut être interprétée dans le cadre des modèles présentés plus haut. Elle sera élevée si la variance des notes vraies (ou des positions des sujets sur le trait latent) est élevée par rapport à la variance des composantes aléatoires.
La fidélité test-retest peut aussi être comprise en termes de généralisabilité d'un résultat observé à une certaine date aux résultats qui seraient observés à des dates différentes. Le choix de l'intervalle entre le test et le retest n'est pas sans conséquence. En effet, si cet intervalle augmente, la variance aléatoire tendra aussi à augmenter. De plus, s'il s'agit d'enfants en cours de développement, les résultats seront affectés par une composante non aléatoire (un biais), les différences individuelles dans la vitesse de développement. Si l'on dispose de deux tests parallèles, on pourra estimer leur fidélité en un autre sens du terme en les appliquant tous les deux aux mêmes sujets et en calculant la corrélation entre ces deux séries de résultats. Empiriquement, on considérera comme parallèles des tests composés d'items de même nature et de même difficulté. Dans le cadre des modèles théoriques précédents, on les définira par le fait qu'ils fourniraient les mêmes notes vraies et que leurs erreurs auraient la même variance, ou bien qu'il s'agit de deux échantillons au hasard du même univers d'items.
Si, au lieu de vérifier l'adéquation d'un test déjà existant, le psychologue se propose de construire un nouveau test, il sera appelé à une utilisation plus complexe des méthodes psychométriques.

La construction d'un nouveau test

La construction d'un nouveau test suppose tout d'abord que l'on établisse à titre provisoire un ensemble d'items susceptibles d'entrer dans sa composition.
Dans de rares cas, de larges ensembles d'items existent dans le domaine étudié et ont fait l'objet d'une analyse préalable de leurs propriétés: le constructeur du nouveau test peut alors puiser dans ces banques d'items. Mais, dans la plupart des cas, le choix des items se fait sur la base d'hypothèses au moins implicites sur le trait que l'on se propose de mesurer et sur ses manifestations dans certains types d'items.
Comme dans tout travail expérimental, ces hypothèses peuvent avoir de multiples origines:

La langue commune est riche de mots désignant des traits de personnalité et l'on peut chercher à vérifier la possibilité de définir l'un d'eux de façon opérationnelle plus précise et plus objective.
Une théorie de l'intelligence peut conduire à établir une épreuve correspondant à l'une des notions qu'elle invoque.
Un test précédemment étudié peut suggérer un trait voisin mais différent de celui que ce test a tenté d'opérationnaliser.
La description statistique des corrélations dans un ensemble de variables peut révéler un groupement de variables suggérant l'existence d'une source de variation commune que l'on peut chercher à évaluer par un test.
Etc...

Les items choisis sur la base d'une telle hypothèse devront d'abord satisfaire à des conditions techniques minimales. On vérifiera que leur formulation est dépourvue d'ambiguïté. Si la question est suivie de plusieurs réponses entre lesquelles l'individu doit choisir, on vérifiera que l'une seulement peut être considérée comme exacte. Le choix des autres réponses proposées est un élément qui modifie au moins la difficulté de l'item et parfois la nature du processus de réponse.
En appliquant ces items à un échantillon de sujets, on procède à une première évaluation de leur difficulté. Les items les plus classants sont ceux qui suscitent 50% de réponses exactes. Mais on souhaite souvent que la difficulté des questions successivement posées aille en croissant. La forme de la distribution des notes totales qui seront obtenues dans le test dépend de la difficulté des items qui le composent et des corrélations qui s'établissent entre eux.

La mise à l'épreuve de l'hypothèse initiale

Les principales étapes ultérieures de la construction d'un nouveau test peuvent être comprises comme la mise à l'épreuve de l'hypothèse initiale. Si ce test doit mesurer un trait unique, les items qui le composent doivent être cohérents. On peut calculer les corrélations entre chaque item et le total et éliminer les items pour lesquels cette corrélation est jugée trop faible. On remarquera à ce propos que toute procédure d'élimination de certains items peut modifier l'hypothèse qui avait conduit à penser que l'item éliminé était une manifestation du trait mesuré, et par conséquent modifier les hypothèses relatives à ce trait. Il s'établit toujours une réciprocité entre l'ajustement d'un instrument à la mesure d'un certain trait et la définition théorique de ce trait.
On peut aussi calculer toutes les corrélations entre items et traiter cette table de corrélations de différentes façons. On peut exiger que la moyenne de ces corrélations soit suffisamment élevée. En outre, à partir de cette corrélation moyenne et du nombre d'items, on peut calculer un coefficient Sua, étudié par Cronbach, qui représente la corrélation attendue entre cet ensemble d'items et un autre ensemble d'items qui serait extrait du même univers et en contiendrait le même nombre. Si les items dont il s'agit sont dichotomiques (la réponse est vraie ou fausse), on peut utiliser un coefficient proposé par George Kuder et Marion Richardson et connu sous le sigle KR20. Ce coefficient est un cas particulier du coefficient a.
On peut aussi procéder à une analyse factorielle des corrélations entre items. L'hypothèse selon laquelle tous ces items sont liés au même trait conduit à attendre qu'un facteur unique rende compte d'une partie importante de ces corrélations. Si plusieurs facteurs sont nécessaires, on pourra mettre en doute le caractère unitaire de la mesure fournie par cet ensemble d'items et chercher à constituer des groupes d'items plus homogènes dont chacun évaluera peut-être un trait différent, éventuellement à un niveau plus élémentaire.
Une autre façon plus simple et plus couramment employée de déterminer la cohérence d'un ensemble des items est de constituer à partir de cet ensemble deux notes globales, l'une obtenue, par exemple, à partir des items de rang pair, l'autre des items de rang impair. La corrélation entre ces deux notes globales fournira une évaluation de la cohérence de l'épreuve étudiée. Cette estimation d'une fidélité pair-impair et plus généralement d'une fidélité par partage en moitiés peut aussi être considérée comme un cas particulier du coefficient a.
Toutes ces évaluations de la cohérence interne d'un ensemble d'items sont présentées classiquement comme des moyens d'évaluer la fidélité du test constitué par l'ensemble des items. Cette dénomination peut se justifier dans le cadre du modèle classique si l'on considère que, dans un test homogène, tous les items fournissent des estimations de la même note vraie de l'individu passant le test, les réponses ne différant que sous l'effet des composantes aléatoires. Dans le modèle de Cronbach, on pourra considérer qu'une estimation obtenue à partir d'un certain échantillon d'items sera d'autant plus généralisable à d'autres échantillons que les items dont il s'agit se seront révélés plus homogènes. Mais, si l'on peut ainsi désigner les différents coefficients qui viennent d'être signalés par l'expression coefficients de fidélité, il importe de voir que les sources de variation aléatoire ou que l'univers de généralisation ne sont pas les mêmes ici et dans le cas de la fidélité test-retest.

Les formes de validation

Si l'ensemble des items choisis pour constituer le nouveau test est suffisamment cohérent pour qu'on puisse envisager une interprétation unitaire, il reste à savoir si cette interprétation est bien celle que l'on avait prévue dans l'hypothèse initiale. Cette formulation ne fait qu'élargir le problème de la validité tel qu'on l'a mentionné plus haut. Les méthodes de validation concourante ou prédictive pourront donc apporter des éléments de réponse.
Mais la forme de validation la mieux adaptée à la vérification d'une hypothèse est la validation hypothético-déductive. L'hypothèse qui se trouve à l'origine de la construction du nouveau test ne portait pas seulement sur la nature des items susceptibles d'être utilisés. Elle portait aussi sur certaines relations entre le trait que l'on cherche à mesurer et certains autres caractères observables. Par exemple, dans une conception de l'estime de soi qui a fondé la construction d'une échelle destinée à l'évaluation de ce trait, on a supposé que les individus ayant une bonne estime de soi s'impliqueront plus que les autres dans les activités sociales. On peut, sur un groupe d'étudiants par exemple, appliquer cette échelle et procéder par ailleurs à l'évaluation de l'implication sociale. L'hypothèse conduit à attendre une corrélation positive entre ces deux variables. Si on constate une telle corrélation, on enregistrera un élément favorable à cette conception de l'estime de soi et à l'hypothèse que la nouvelle épreuve est interprétable dans le cadre de cette conception. Plusieurs constats de ce type seront souhaitables pour que l'hypothèse soit considérée avec faveur sans que l'on puisse fixer un niveau à partir duquel on la considérera comme vraie. Si la corrélation attendue ne s'observe pas, on pourra rejeter la conception de l'estime de soi dont on était parti ou rejeter l'hypothèse d'une liaison entre estime de soi et activités sociales, ou encore mettre en doute la fidélité de l'évaluation des activités sociales.
D'autres vérifications seront nécessaires pour rendre certaines de ces suppositions plus vraisemblables que d'autres. Le caractère non automatique et non univoque d'une recherche portant sur la validité hypothético-déductive d'une épreuve a pu susciter des critiques. Cependant, il est probable qu'une telle démarche est plus heuristique que celle qui qualifie de statistiquement significative ou non significative la corrélation entre un test et un critère.

La validité convergente et la validité discriminante

Un cas particulier de la validation hypothético-déductive est constitué par la vérification de la validité convergente et de la validité discriminante. Lorsque plusieurs instruments fournissent théoriquement des évaluations du même trait, l'hypothèse conduit à attendre une corrélation élevée entre les mesures qu'ils fournissent (validité convergente). Au contraire, s'ils sont considérés théoriquement comme évaluant des traits différents, l'hypothèse conduit à attendre entre eux des corrélations faibles (validité discriminante).
Ces vérifications peuvent s'opérer par l'analyse de matrices de corrélations multitraits-multiméthodes. On peut calculer une telle matrice lorsqu'on dispose de mesures relatives à plusieurs traits dont chacun est évalué par plusieurs méthodes, chaque méthode s'appliquant à tous les traits. Par exemple, plusieurs traits de personnalité sont évalués, dans un groupe d'étudiants, par le jugement des camarades, par les jugements des enseignants et par un questionnaire d'autoévaluation. Plusieurs méthodes d'analyse de ces matrices ont été proposées. Dans les plus récentes, les hypothèses sont mises sous la forme de modèles structuraux et les données sont analysées par les méthodes d'analyse factorielle.

La construction des tests de niveau

Toutes les méthodes psychométriques qui viennent d'être évoquées peuvent s'appliquer aux tests composés de plusieurs items du même type (mots à définir, séries de dessins à compléter, questions relatives aux intérêts, etc...). Certaines d'entre elles ne s'appliquent pas à des tests prenant une autre forme, qui peuvent par contre appeler l'utilisation de méthodes spécifiques.
La construction d'échelles de développement ou d'intelligence constitue le plus important de ces cas particuliers. Ces échelles sont constituées par une suite ordonnée d'items très différents les uns des autres par la nature de la tâche qu'ils proposent et par leur niveau de difficulté. Dans les premières échelles construites sur le modèle de l'échelle de Alfred Binet et Théodore Simon, chaque item était attribué à un âge, la réussite à cet item étant considérée comme caractéristique des enfants de cet âge. Cette attribution se faisait selon des règles utilisant, de façon un peu floue, les pourcentages de réussite observés sur des enfants d'âges successifs. L'âge mental d'un individu tenait compte du niveau d'âge pour lequel toutes les épreuves caractéristiques étaient réussies et de bonifications pour les épreuves réussies appartenant en principe à des âges ultérieurs. Si l'on définit le quotient d'intelligence (Q.I.) par le rapport de l'âge mental à l'âge chronologique (multiplié par 100), on doit chercher à obtenir à chaque âge, sur un échantillon représentatif d'une population normale, une distribution des Q.I. ayant à tous les âges chronologiques la même moyenne (100) et la même dispersion.
Ce résultat, recherché notamment par Lewis Terman, est très difficile à atteindre par la méthode indiquée ci-dessus. Une méthode plus systématique, employée notamment par David Wechsler, consiste à attribuer un certain nombre de points en fonction des réponses du sujet. La distribution de ces notes globales pour chacun des groupes d'âge permet de définir dans chaque groupe une transformation statistique telle que, dans tous les groupes, la variable transformée ait une moyenne égale à 100 et le même écart-type. Cette variable transformée est dénommée quotient d'intelligence.
Les théories de l'intelligence qui, comme celle de Piaget, postulent que tout enfant passe nécessairement dans le cours de son développement par une succession définie de stades permettent de construire des échelles d'épreuves dans lesquelles on attend qu'aucun enfant réussissant un item d'un âge déterminé n'échoue à un item d'un stade inférieur. La validation hypothético-déductive d'une telle échelle se fait en vérifiant que les résultats observés pour des groupes d'items correspondant théoriquement aux stades postulés prennent la forme d'une échelle hiérarchique de Guttman.