Les nouvelles technologies pour l’enseignement des mathématiques
Intégration des TICE dans l’enseignement des mathématiques

MathémaTICE, première revue en ligne destinée à promouvoir les TICE à travers l’enseignement des mathématiques.

La mal-mesure de l’élève

Les auteurs osent prendre le prétexte des évaluations chaotiques et dispendieuses réalisées cet automne en primaire, pour raconter les errements honteux de la statistique mathématique à ses débuts. Cela mérite une sanction administrative exemplaire, que l’on ne manquera pas d’étendre à la revue qui leur ouvre trop généreusement ses colonnes, ainsi qu’à ses éventuels lecteurs égarés.

Article mis en ligne le 11 décembre 2024
dernière modification le 27 décembre 2024

par Sarah Leleu, Bernard Ycart

Dans l’esprit de ses créateurs anglais, Galton, Pearson et Fisher, la statistique mathématique était le support théorique de l’eugénisme, qu’ils entendaient promouvoir pour le bien de l’humanité. Ce faisant, ils ont commis d’énormes erreurs méthodologiques dont on n’aurait pas cru capables des mathématiciens de ce niveau. Rapprocher leurs ratages spectaculaires de la gabegie absurde engendrée cette année par l’évaluation généralisée des élèves de primaire, est l’objectif insolent de cet article.

Introduction

La « mal-mesure de l’homme » : c’est le titre de la traduction française du livre de Stephen Jay Gould, « The mismeasure of man ». Ce livre est paru il y a plus de 40 ans. Pourquoi en parler encore ? Dans la préface de la seconde édition, en 1996, l’auteur explique :

Je considère la critique du déterminisme biologique comme à la fois « timeless » et « timely », c’est-à-dire intemporelle, et arrivant au bon moment. Le besoin d’analyse est intemporel car les erreurs du déterminisme biologique sont profondes et insidieuses, et car elles font appel aux pires manifestations de notre nature commune.

Mais la critique du déterminisme biologique arrive aussi au bon moment (y compris de nos jours), car les mêmes mauvais arguments refont surface de temps en temps avec une régularité prédictible et déprimante.

Qu’entend-il par « déterminisme biologique » ? Il s’agit du foisonnement de théories pseudo-sientifiques qui ont tenté de donner une base rigoureuse au racisme occidental, au moment de la période coloniale. On peut suivre son émanation nauséabonde depuis l’Origine des espèces de Charles Darwin (1859), jusqu’à la prise de conscience de la catastrophe de la Shoah (1945). Darwin n’a pas été le créateur du racisme en Angleterre, pas plus que Hitler en Allemagne. Le racisme a toujours existé, y compris chez les intellectuels, depuis les philosophes grecs en passant par les penseurs des Lumières. Mais dans la seconde moitié du XIXe siècle, certains scientifiques occidentaux ont tenté de le théoriser, principalement en Angleterre et en France. Parmi eux des mathématiciens, les meilleurs de leur temps. Ils ont créé la statistique mathématique, et développé des méthodes d’analyse qui sont toujours utilisées quotidiennement.

Stephen Jay Gould est loin d’être le seul à avoir raconté ce triste épisode. On le trouve aussi dans l’histoire de la statistique de Stephen M. Stigler. Tout récemment, Lee Kennedy-Shaffer a mis en relief l’intérêt pédagogique d’un tel récit. On trouvera le point de vue original d’un économiste français chez Michel Husson. Le chapitre « Statistique » de hist-math.fr fait une place assez large aux aspects les moins reluisants de la discipline. On y trouve aussi quelques-uns des documents originaux cités dans ce qui suit.

Pourquoi retourner ici, une fois de plus, le couteau dans la plaie ? Il est trop facile pour nous, connaissant les catastrophes provoquées par le racisme au XXe siècle, de nous donner bonne conscience en condamnant ceux qui les avaient légitimées par avance : eux n’avaient pas de boule de cristal. Nous ne nous étendrons donc pas sur les justifications du racisme, pour lesquelles nous nous contenterons après quelques citations, de renvoyer aux références ci-dessus. Nous insisterons plus sur les erreurs méthodologiques de base commises par les statisticiens eugénistes dans leur aveuglement raciste.

Pour reprendre l’argument de Gould, la critique de ces erreurs est à la fois « timeless » et « timely ». Nous en voulons pour preuve les évaluations nationales subies cet automne par des millions d’élèves et des centaines de milliers d’enseignants. Non seulement ces évaluations ont été l’occasion d’un gaspillage inouï de temps et d’argent, mais elles ont aussi donné lieu à un traitement statistique totalement biaisé, dans le seul but d’alimenter l’autosatisfaction gouvernementale. Parmi les bourdes méthodologiques de ce traitement, on retrouvera, non sans quelque découragement, des erreurs déjà commises par Galton ou Pearson il y a plus d’un siècle.

Statistique et eugénisme

Le grand-père maternel de Francis Galton (1822-1911) était Erasmus Darwin. De sorte qu’il était le cousin germain de Charles Darwin (1809-1882). Appliquer la théorie de la sélection naturelle à l’amélioration des races humaines était l’objectif avoué de la nouvelle science que Galton entendait fonder, l’eugénisme. Il s’en explique très clairement dans un article de 1904 : « Eugénisme, sa définition, son champ, ses objectifs ».
La première phrase de l’article donne une définition : « L’eugénisme est la science qui traite de toutes les influences qui améliorent les qualités innées d’une race ». Et de préciser en suivant : « L’amélioration des qualités innées ou de la lignée d’une race humaine particulière, sera seule discutée ici ». Dans son esprit, le but est parfaitement louable : « Nous ignorons les destinées ultimes de l’humanité. Mais nous sommes parfaitement sûrs que c’est une noble tâche que d’élever son niveau, tout comme il serait honteux de l’abaisser ». Rappelons une fois de plus que Galton ignorait les catastrophes à venir. Mais qu’il s’agisse bien du racisme le plus méprisant ne peut faire aucun doute. Une seule citation suffira : « Il peut y avoir une connexion avec la disparition des races les plus sauvages quand elles sont mises en contact avec une civilisation avancée, bien qu’il y ait d’autres causes concomitantes. Mais, tandis que la plupart des races barbares disparaissent, certaines, comme la race nègre ne disparaissent pas ».

C’est pour mieux servir sa « science » de l’eugénisme, que Galton a développé des techniques statistiques qui sont toujours parmi les plus utiles ; en premier lieu, la régression linéaire et l’analyse multivariée. Le terme « régression » vient d’un article de 1886 : Regression towards mediocrity in hereditary stature. Galton y explique une idée somme toute assez intuitive : les enfants de couples très grands sont aussi plutôt grands, mais moins que leurs parents. Symétriquement les enfants de couples très petits sont plus grands que leurs parents : ils sont plus proches de la moyenne. Il faut donc comprendre « Regression towards mediocrity » comme un retour vers la moyenne et non comme une régression vers la médiocrité : il n’y a rien de douteux dans cet article.

Reste que Galton croyait tellement à ses théories, qu’il a consacré une partie de sa fortune personnelle à fonder un laboratoire d’eugénisme, dont il a confié la direction à son successeur désigné, Karl Pearson (1857-1936). L’image ci-contre les représente tous les deux vers 1910.

Pearson était un excellent mathématicien, classé 3e en son temps aux Tripos, concours extrêmement sélectif de l’université de Cambridge. Nous lui devons une bonne partie des techniques de biométrie encore utilisées de nos jours, dont l’indispensable test du chi-deux.

Pearson n’avait pas l’excuse d’être issu d’un milieu aisé et conservateur, comme Galton. C’était un progressiste sincère, militant de l’éducation populaire et de la cause des femmes. Pourtant, voici ce qu’il a été capable d’écrire en 1901 dans National life from the stand point of science.

« Si vous mettez l’homme blanc en contact avec le noir, vous suspendez trop souvent le processus de sélection naturelle dont dépend une évolution d’un type plus élevé. Vous obtenez des races supérieures et inférieures vivant sur le même sol, et cette coexistence est démoralisante pour les deux. Elles s’enfoncent naturellement dans la position de maître et serviteur, sinon dans celle de propriétaire et esclave. »

Le successeur de Pearson à la tête du laboratoire d’eugénisme fut Ronald Fisher (1890-1962) ; lui aussi mathématicien brillant, primé aux Tripos de Cambridge. Nous lui devons l’essentiel de la théorie mathématique de la statistique, autour de la notion fondamentale de maximum de vraisemblance. Par ses travaux sur la génétique mathématique, il est aussi considéré par les généticiens comme un des fondateurs de leur discipline. Voici ce qu’il écrit dans la conclusion de The genetical theory of natural selection.

« Le lecteur aura réalisé que nos conclusions concernant les facteurs génétiques qui sont à l’œuvre dans les sociétés civilisées, sont dangereusement proches des applications pratiques. Conscient comme je le suis des inconvénients d’une telle démarche, je trouverais cynique de ma part, ayant établi comme je le crois la cause principale de l’instabilité des civilisations humaines, si je ne tentais pas au moins de spécifier les conditions de permanence d’une civilisation similaire à la nôtre.

La condition la plus évidente pour qu’une société soit capable d’un progrès évolutionnaire en accord avec ses besoins, est que la reproduction soit plus active parmi ses membres qui ont le mieux réussi, que parmi ceux qui réussissent le moins bien. »

Le livre date de 1930, trois ans avant l’accession de Hitler au pouvoir. Nous avons déjà insisté sur la nécessité d’une relativisation culturelle. Le racisme de Galton, Pearson et Fisher, pour scandaleux qu’il nous paraisse, était une opinion largement partagée de leur temps, et rares étaient ceux qui s’en offusquaient. Ce qui nous paraît a posteriori plus grave, c’est que d’aussi grands mathématiciens aient, pour justifier leur racisme et par biais idéologique, commis des erreurs méthodologiques grossières, que l’on n’admettrait pas d’un statisticien débutant. Nous allons en donner deux exemples, un chez Galton, un chez Pearson.

Facteurs de confusion

Dans un cours de statistique, aussitôt après la notion de corrélation, il convient d’expliquer la différence entre corrélation et causalité. Une corrélation significative sans aucun lien logique entre les variables est possible, mais le plus souvent elle s’explique par la présence d’une autre variable, corrélée à la fois avec la variable à expliquer et le facteur explicatif. C’est ce qu’on appelle un facteur de confusion (confounding factor en anglais). Par exemple, les résultats mathématiques des élèves de primaire sont fortement corrélés à leurs tailles de chaussures. Pour autant, avoir de grands pieds ne donne pas la bosse des maths. Taille de chaussures et performance mathématique sont tout simplement liées à l’âge des enfants. Les cours de statistique regorgent d’exemples plus ou moins incongrus comme celui-ci, celui-ci, ou encore celui-là.
Jamais on n’imaginerait que les pères de l’analyse multivariée aient pu oublier un facteur de confusion. Or, voici ce que raconte Galton dans son autobiographie, intitulée Memories of my life.

« Je peux mentionner ici quelques tentatives sans suite de ma part, pour obtenir une « Carte de la Beauté » des îles britanniques. Chaque fois que j’ai l’occasion de classer les personnes que je rencontre en trois classes « bon, moyen, mauvais », j’utilise une aiguille montée sur un suppport, avec laquelle je peux percer des trous dans un morceau de papier, sans être vu. […] J’ai utilisé ceci pour mes données de beauté, classant les filles que je croisais dans les rues ou ailleurs en attirante, indifférente ou repoussante. Bien sûr, c’était une estimation purement individuelle, mais elle était consistante, à en juger par la conformité de différentes tentatives dans la population. J’ai trouvé que Londres se classait en tête en termes de beauté ; Aberdeen en dernier.
 »

Oui, il n’y a pas d’erreur, Galton a bien classé les filles qu’il croisait en « attirante, indifférente ou repoussante ». C’est insupportable de sexisme, bien sûr. Mais son siècle était sexiste, et Galton ne l’était pas plus que les autres hommes de sa classe sociale. Ce qui est plus choquant en revanche, c’est qu’il en ait déduit un classement des villes, en ignorant (ou feignant d’ignorer) l’énorme facteur de confusion socio-économique. Comment a-t-il pu passer sous silence le fait que les bourgeoises londonniennes avaient plus de moyens pour s’habiller et se maquiller avant de sortir, que les ouvrières d’Aberdeen ? L’exemple suivant, dû à Pearson, est du même ordre.

« Le problème de l’immigration étrangère en Grande-Bretagne, illustré par un examen des enfants juifs russes et polonais ».

L’article est paru dans le premier numéro des Annals of Eugenics. Remarquez que Margaret Moul en est co-autrice. Ils n’étaient pas nombreux les scientifiques de l’époque, à reconnaître la collaboration d’une femme. Malheureusement, le contenu est à la hauteur du titre. Les points annoncés dans la table des matières sont détaillés dans le texte, jusqu’à la nausée.

« Sur l’homogénéité raciale des enfants juifs étrangers. La comparaison physique des enfants juifs et anglais natifs. La propreté des cheveux et du corps, la condition des vêtements […]. ».

Non, ceci n’a pas été écrit dans les années trente par quelque idéologue de l’Allemagne nazie, mais bien en Angleterre en 1925. Comment le grand Karl Pearson, le père de l’analyse de variance et de la biométrie, a-t-il pu omettre dans son analyse, le facteur de confusion socio-économique ? Comment n’a-t-il pas compris que les petits Juifs rescapés des pogroms en Russie ou en Pologne, qui débarquaient en Angleterre après un long et pénible voyage, ne pouvaient pas avoir les cheveux et le corps aussi propres que les petits Anglais natifs ? que leurs vêtements ne pouvaient pas être en aussi bon état ? que c’était parce qu’ils étaient pauvres, et non parce qu’ils étaient nés juifs, qu’ils étaient moins bien nourris, moins éduqués, en moins bonne santé ?

Les évaluations « repères »

« Les grandes personnes aiment les chiffres. Quand vous leur parlez d’un nouvel ami, elles ne vous questionnent jamais sur l’essentiel. Elles ne vous disent jamais : Quel est le son de sa voix ? Quels sont les jeux qu’il préfère ? Est-ce qu’il collectionne les papillons ? Elles vous demandent : Quel âge a-t-il ? Combien a-t-il de frères ? Combien pèse-t-il ? Combien gagne son père ? Alors seulement elles croient le connaître. » (Antoine de Saint-Exupéry, le Petit Prince).

De chiffres en bâtonnets

Évaluer les élèves : c’est la grande marotte des gouvernements d’ici et d’ailleurs pour donner l’impression que tout est fait pour concourir à la réussite des enfants et à la formation de la génération à venir grâce à la rigueur de leur politique éducative. Forcément, tout ce qui de près est chiffré a de loin une allure scientifique : ça a vite fait de clore le débat, c’est indubitable, irréfutable, c’est censé exclure toute remise en question du grand public.

De ces chiffres, on fait des courbes, des graphiques, des diagrammes, des histogrammes et autres toiles d’araignées supposés éclaircir la chose et rendre visibles et évidents pour tous les résultats savamment compilés par les hautes compétences des ministères.

Tout le monde a les yeux rivés sur PIRLS, TIMSS et PISA, on s’écharpe pour avoir les meilleurs scores, les meilleures statistiques. On s’extasie sur les performances remarquables des petits asiatiques au point qu’on ambitionne d’en importer les méthodes pour en faire un étendard tricolore.

Mais que dire des petits Français ? On répète depuis des années qu’ils dévalent à toute allure la pente des courbes, qu’ils dégringolent les marches des diagrammes, on ressasse, on déplore, on se lamente. Mais qu’on se rassure, pour sortir de l’impasse des classements internationaux où l’on ne peut que ruminer notre médiocrité au grand concours de la rentabilité pédagogique et de la productivité scolaire, on a trouvé un remède imparable — une alternative lumineuse : les évaluations nationales. Enfin, non, excusez cette dénomination un peu surannée, utilisée jadis pour les classes de CE1 et de CM2 puis pour les classes de CE1 et de CM1 : on parle désormais d’évaluations nationales « standardisées », dites évaluations « repères », grande nouveauté 2024 qui va tout changer. Elles concernent pour la première fois toutes les classes du CP au CM2 : cette fois-ci, c’est promis, on prend les choses en main. La ministre nouvellement nommée et désormais fraîchement débarquée le disait et le répétait, elle n’avait que trois priorités : « élever le niveau, élever le niveau, élever le niveau ». Quand on veut apprendre à compter, il faut bien l’avouer : ça commence plutôt mal. D’autant que dans la même intervention, on ne dit pas « si ça monte ou si ça baisse » parce que « ce n’est pas une question de combien ».

Bref : revenons-en plutôt à nos diagrammes on ne peut plus officiels.

Vous voyez les petits bâtonnets bleus, là, à côté des géants verts ? C’est nous ! Et ci-dessous, la courbe qui dégringole d’année en année dès le CE1 ? Encore nous. Ah mais à droite, il y a tout de même une courbe qui grimpe de manière encourageante, non ? Mais, oh, pas si vite, tempérez votre joie : c’est juste le niveau de « maîtrise insuffisante » en culture mathématiques qui augmente en flèche depuis vingt ans.

Eh oui, une courbe qui monte et qui descend, ça ne veut pas dire grand-chose : on aurait pu choisir de montrer une courbe en sens inverse, qui montre la chute du niveau de maîtrise de la même culture mathématique. Que choisit-on de dire, comment choisit-on de le montrer ? Dans quel contexte et pour servir quel discours et quelles intentions ?

Ces infographies sont disponibles dans l’Éducation Nationale en chiffres, édition 2024. C’est censé être neutre et objectif. Tout comme les informations données sur le site du ministère de l’éducation de Singapour, tant érigé comme modèle, au point de vouloir en labelliser les méthodes pédagogiques. On oublie juste qu’elles émanent d’un État épinglé pour son contrôle étroit de l’information.

La France n’est pas Singapour, mais une information, même en pays démocratique, n’est jamais neutre, des données chiffrées sont toujours à interpréter, l’esprit critique toujours à affûter et à exercer en fonction du contexte. Sur Éduscol on se soucie d’ailleurs particulièrement de cette compétence essentielle : développer l’esprit critique des élèves est une « ambition majeure de l’école », l’objectif est d’avoir un « esprit éclairé, autonome et critique ». Pour ce faire, il convient de « s’informer », « d’évaluer l’information », de « distinguer les faits et les interprétations », de « confronter les interprétations » et de les « évaluer ».

Bien, bien : c’est noté. Appliquons donc les directives une par une, à la lettre.

S’informer : quid des évaluations « repères » 2024 ?

Petit rappel des faits : ces évaluations ont eu lieu, pour l’école primaire, entre le 9 et le 20 septembre 2024, période durant laquelle les élèves de toutes les classes du CP au CM2 ont été soumis à différents tests en mathématiques et en français ;
Soit 47 790 écoles mobilisées avec leurs 4 054 300 élèves.
Entre le 9 et le 27 septembre, les 379 700 enseignants de ces classes ont dû saisir les résultats de ces évaluations sur le portail gracieusement mis à leur disposition.

Les modalités d’évaluation ? Des livrets format papier, un par élève, d’environ 70 pages chacun, contenant un exercice par page. Un guide du professeur par enseignant, toujours format papier, d’environ 50 pages. Ça, ce sont les données officielles et objectives. En pratique, Ce sont 8 jours de classe dont l’organisation a été perturbée, moins d’un mois après la rentrée scolaire.

Au temps consacré à la passation des épreuves, il faut ensuite ajouter celui de la saisie des réponses. On ne parle pas de correction, car il ne s’agit pas de corriger le travail des élèves, ni d’analyser leurs erreurs, mais simplement de renseigner les réponses des enfants, exercice par exercice, élève par élève. Soit environ 70 réponses multipliées par 4 054 300 élèves, c’est-à-dire 283 801 000 réponses à faire rentrer dans des cases, et sans se tromper, s’il vous plaît.

Pour ma classe de 27 élèves par exemple, ça fait déjà 1 890 pages à tourner et autant de réponses à saisir, une par une. Chronomètre en main, il faut au moins dix minutes, pas moins, dans le meilleur des cas, pour venir à bout d’un seul livret. Soit au total, 40 543 000 minutes de travail d’enseignant consacrées à remplir des cases sur un portail informatique. Convertissez en heures, puis en équivalents temps plein annuel (1 820 h), vous arrivez à 371 postes de travail. Oui, vous avez bien lu : le temps de travail de 371 enseignants qui travaillent à temps plein sur une année complète… Sauf qu’aucun poste dédié n’est vraiment consacré à cette essentielle et indispensable tâche. Au contraire : 3 155 postes dans le premier degré, c’est ce qu’on envisage très sérieusement de supprimer.

Arrivé à ce stade, le lecteur 2.0 de cette revue consacrée aux TICE, se dit « Mais comment est-ce possible ! On n’a donc fait aucun progrès depuis Galton et son aiguille à faire des trous dans une feuille ? À l’heure des ENT et de Parcoursup, personne n’a su coder l’interface qui aurait permis aux élèves de saisir directement leurs réponses ? ».

Nous tenons à rassurer ce lecteur incrédule : la plateforme de saisie existe bien, mais elle est réservée aux tests de positionnement du collège, qui eux ne nécessitent pas une seule minute de saisie par les professeurs du secondaire. En primaire, 40 543 000 minutes de travail de saisie : un travail répétitif, mécanique, dénué de réflexion et d’analyse, au service duquel l’esprit, la compétence, l’intelligence, l’expertise et l’expérience de chacun des 379 700 enseignants des écoles élémentaires ont été consacrés, quand d’autres en sont soulagés par une application informatisée. A-t-on eu peur de devoir payer en heures supplémentaires aux professeurs du secondaire un travail qu’on ne rechigne pas à exiger sans contrepartie particulière des professeurs des écoles ?

Maintenant, du point de vue matériel, il aura fallu pour cela imprimer 281 801 000 pages d’exercices. Admettons que l’impression d’une page coûte 0,05 euros, la facture s’élève au bas mot à 14 090 050 euros. Sans compter les 949 250 euros nécessaires à l’impression des guides pour les professeurs. Soit plus de 15 millions d’euros, quand pas une page de papier n’aura été nécessaire pour les tests de positionnement du collège.

Ce n’est pas tout : pour faire le compte-rendu de ces évaluations aux parents, il aura fallu leur imprimer les résultats de leur enfant. Si comme moi, tout le monde s’est donné la peine d’imprimer les résultats de maths et de français sur la même page, cela nous fait encore une page par élève, soit encore 4 054 300 pages. Évidemment, là, ça ne compte pas dans le budget de l’État, car, comme moi encore, pour la plupart des collègues, il aura fallu les imprimer chez soi.

Bon d’accord, ça ce sont les comptes d’apothicaire, qui ne sont qu’une mauvaise estimation : on est encore sûrement loin du compte en terme de temps consacré et de budget alloué à la chose.

Évaluer l’information : comparer

Quinze millions d’euros, pour parler au commun des mortels, à quoi cela correspond-il en réalité ?

C’est à peu près 189 années complètes de scolarité (selon les chiffres du ministère de l’éducation) ou encore environ 85 000 heures d’enseignement (moyenne des estimations de salaire selon l’OCDE). En même temps, il est vrai qu’au regard des 10 millions d’heures d’enseignement non remplacées, cela ne représente que peu de chose.

Globalement, quand on tient un budget, on ne gaspille pas des millions d’euros alors qu’il y a tant à faire : recruter des enseignants qualifiés, rénover des écoles en décrépitude, équiper les classes en matériel pédagogique, financer des formations de qualité ou des emplois d’AESH (soit environ 600 années d’AESH à temps plein avec le budget dont nous parlons).

Distinguer les faits et les interprétations

Le protocole de passation des évaluations « repères » est très codifié et très strictement détaillé dans le livret du professeur : lecture des consignes écrites mot pour mot, chronométrage, interdiction de dire un mot de plus, d’expliquer les consignes, de rappeler quoi que ce soit aux élèves et de répondre aux questions.

Pour les élèves, c’est une situation inhabituelle. Il ne m’arrive jamais, en effet, de refuser de répondre à une question, et rarement de chronométrer le temps de travail à respecter à la seconde près. Ne serait-ce que le nom d’« évaluations » suffit à en tétaniser une bonne partie, à susciter angoisse, perte de moyens et anxiété, quand bien même on explique le caractère informatif et statistique de ces évaluations. Les enfants se sentent jugés, ils redoutent d’être mis en échec, d’autant que rien n’est préparé.
Ce ne sont donc déjà pas des conditions de travail ordinaires ni familières pour les enfants et ils y réagissent de manières très variées.

Je voudrais maintenant m’arrêter sur cet exercice en particulier :

Il est extrait d’une séquence de mathématiques, et fait partie d’une série autour de l’objectif « placer un nombre sur une ligne ». Il se trouve que cet exercice a été particulièrement réussi, à ma grande surprise. En effet, depuis de longues années que j’enseigne en CM2, j’ai remarqué que c’est toujours une compétence difficile : les élèves ont du mal à trouver leurs repères, à déterminer l’écart entre deux nombres, à indiquer la valeur de chaque graduation, et à trouver le nombre demandé. Or, sur la totalité de nos CM2 cette année, peu d’élèves ont été en échec.

Lors de la réunion d’analyse des résultats, étant nouvelle dans l’école, j’ai interrogé l’équipe sur le travail qui avait été fait en amont, et qui pourrait justifier cette remarquable réussite. Je ne m’attendais pas vraiment à la réponse, qui a de quoi surprendre : les enfants ont simplement été « préparés à l’exercice » sur les livrets d’évaluations précédents, au cours de séances de bachotage. Ils connaissaient donc le format de l’exercice, la présentation, la consigne, ils avaient très précisément travaillé des situations absolument identiques. On a justifié ce travail par l’item fortement échoué les années précédentes, et on s’est félicité de cette réussite : on avait donc bien travaillé.

Certes, les enfants ont réussi, et peut-être, on peut l’espérer, compris. Mais qu’en est-il du protocole d’évaluation censé mettre à égalité tous les enfants de toutes les classes de toutes les écoles dans les mêmes conditions de travail ? Il est forcément faussé.

Mon interrogation s’est confirmée, à propos de cet exercice :

Il s’agit d’un exercice de numération : on donne une décomposition d’un nombre à l’élève, qui doit identifier de quel nombre il s’agit. Cet item a particulièrement été échoué. Analyse des résultats ? « Nos élèves savaient, mais on ne les avait pas entraînés à cet exercice, ils ne l’avaient jamais vu sous cette forme ».

Ma question a été la suivante : Quel est l’objectif de notre enseignement ? Assurer une réelle compréhension des apprentissages, qui pourra perdurer lors du transfert de compétences quels que soient les exercices, ou bien les entraîner à réussir des exercices formatés pour avoir des bons scores aux évaluations nationales ? La réponse, je l’ai eue lors des réunions suivantes : on a constaté un fort taux d’échec dans la maîtrise des techniques opératoires, alors on a décidé d’en faire un objectif de travail particulier, sans essayer d’analyser les causes de l’échec et sans observer les productions des élèves : en réalité, les enfants qui ne savent pas poser une multiplication ont souvent une mauvaise compréhension de la numération, et ne parviennent pas à manipuler les nombres. Ils procèdent colonne par colonne, par automatisme, sans considérer le sens de ce qu’ils font. Les entraîner à poser des opérations à la chaîne ne les aidera pas à comprendre ce qu’ils font : c’est en amont qu’il faut d’abord travailler. Mais qu’importe : pour déterminer les axes de travail prioritaires de l’école, l’inspection nous a envoyé des graphiques comparant les résultats de l’école avec les résultats des autres écoles de la circonscription — l’aspect compétitif de la chose ne m’a pas échappé. L’objectif n’est pas en réalité de faire progresser et réussir les enfants en s’appuyant sur l’origine de leurs difficultés, mais de figurer en haut de la courbe, en bon employé du mois. C’est en réalité l’équipe qui se sent évaluée.

Nous disions donc « distinguer les faits des interprétations » :
— les faits ? Ils sont chiffrés : les enfants sont très forts pour positionner un nombre sur une ligne graduée, en revanche ils ont de grandes difficultés pour poser une multiplication.
— l’interprétation : elle dépend de l’honnêteté avec laquelle on analyse la situation. Si l’on admet avoir faussé le protocole, laissé plus de temps, réexpliqué la consigne, aidé l’enfant, voire bachoté pour l’entraîner à reconnaître l’exercice et à reproduire des automatismes, on n’évalue plus sur un même pied d’égalité, et on n’évalue pas non plus la compréhension d’une notion et la capacité à la réinvestir, mais la mémorisation de procédures, ce qui est tout à fait différent. Il est donc facile de faire passer une réussite pour une compétence bien maîtrisée, et tout aussi facile de faire semblant de travailler sur une compétence échouée sans en avoir analysé la cause, en laissant de côté la réelle difficulté dont l’exercice échoué n’était en réalité que le symptôme.

Je souscris donc à l’importance soulignée par le ministère de la nécessité d’un esprit critique développé, il est tout à fait nécessaire de dissocier les faits de leur interprétation. CQFD.

Confronter les interprétations

Il nous reste, pour évaluer la fiabilité et l’utilité des interprétations, à les comparer. Dans notre cas, nous avons eu deux retours de ces évaluations : un premier en octobre, avec le positionnement individuel des enfants et les résultats de la classe, puis un second courant novembre, avec l’analyse nationale. Entre les deux, nous avons eu des comparatifs plus locaux, sur la commune et sur la circonscription.

J’ajouterai un élément de comparaison : mes propres évaluations, avec ma propre analyse du travail de mes élèves.
Chaque année, dès les deux premiers jours de septembre, je propose à mes élèves des évaluations diagnostiques en mathématiques et en français, pour faire le point sur leurs compétences et apprendre à les connaître. Mon protocole est quelque peu différent : je leur explique les consignes, je réponds à leurs questions, je leur laisse le temps qu’il faut. Et surtout, je les observe travailler, je les regarde — je regarde ce qu’ils font, et je regarde qui ils sont. Celui qui est dans la performance, qui se lance à corps perdu, qui, efficace, avance, et celui qui est perdu, qui se cache, qui ne sait plus. Je regarde leurs mains tremblantes, leurs écritures fermes ou hésitantes, la façon dont ils s’assoient, celui qui gigote et celui qui rêvasse, celui qui fait tomber dix fois son crayon avant de commencer, quand l’autre a déjà fini et attend sagement à sa place. Mon protocole est peu conventionnel : il ne prétend pas offrir l’égalité de passation et de traitement d’information, mais à chacun, une très exacte égalité d’attention et de considération. C’est un grand moment de travail : je tisse un lien avec chacun d’entre eux et je prends pied dans ma classe. Quand je regarde leur travail, je sais qui l’a fait et comment. Je sais pourquoi les pages sont blanches, raturées, ou bien soignées. Je regarde leurs erreurs avec le plus grand intérêt. Ma première semaine de classe est dédiée à ça : au bout de quelques jours, j’ai des évaluations chiffrées, un profil de classe et des profils individualisés, j’ai des groupes de besoin identifiés.

Il aura fallu que j’attende fin octobre pour recevoir des tableaux complexes, pleins de chiffres, de toiles d’araignées, des graphiques, des items décortiqués, pour prétendre m’apprendre à connaître des élèves que j’ai déjà cernés, et me dire quel travail je dois faire, alors qu’il est déjà commencé.
Croit-on pouvoir attendre deux mois, pour commencer à différencier ?

J’avoue : je n’ai pas tout compris. Une fois qu’on a essayé de déchiffrer toutes les informations, ce qui nécessite bien quelques soirées et un peu d’ibuprofène, vient alors le verdict : Sur 27 élèves, on m’annonce que j’ai 23 élèves « fragiles » et 11 élèves « à besoins ». Je m’affole, je m’inquiète, je me mets en peine, j’enquête : je vais m’enquérir auprès de mes collègues pour savoir si ma classe est particulièrement en difficulté… Que nenni : le constat est généralisé. Nos élèves ont presque tous des besoins particuliers. Il aurait fallu, figurez-vous, donner des rendez-vous à tout ce petit monde, différencier, faire fleurir les APC, les PPRE et autres PAP.

Alors, en bonne élève, j’ai fait comme dit le ministère pour exercer mon esprit critique : j’ai comparé. J’ai sorti mes propres évaluations, et j’ai regardé. Mon tableau est tout aussi sérieux, et je vois apparaître, en couleurs, très lisiblement, les enfants qui ont rencontré de notables difficultés. Quelques noms émergent : les mêmes, au final, que sur les graphiques divers et variés qu’on nous a communiqués deux mois après.

Sauf que moi, je sais qui se trouve derrière ces noms, derrière ces chiffres et ces difficultés, ça fait déjà deux mois que je travaille avec eux et que je les connais.

Alors, 23 élèves « fragiles » ? 11 élèves « à besoins » ? Non, pas vraiment. À vrai dire, mes 27 élèves ont tous des besoins, ils ont besoin d’apprendre à s’asseoir, à se taire, à lire une consigne, à être autonome face à un exercice, ils ont besoin d’apprendre à chercher, à accepter de se tromper, à recommencer, à s’appliquer, à avoir confiance en eux. Mais en réalité, j’en ai cinq qui ont vraiment besoin d’apprentissages différenciés, d’APC, de PPRE, voire de PAP. Les autres ont juste raté un exercice, pas eu le temps de finir, ou mal compris la consigne. Mais que fera-t-on d’eux dans les statistiques nationales ? J’avais hâte de voir comment de tels résultats apparemment calamiteux seraient traités dans le futur communiqué. Cela n’a guère tardé.

Le communiqué en question nous parvient le 31 octobre 2024. En voici les titres principaux : « hausse significative du niveau des acquis des élèves », « l’écart de performance se réduit », « l’amélioration des résultats en mathématiques est significative », « les résultats sont stables en français et en hausse en mathématiques ».

Mais dites, se serait-on trompé d’année, de tableau, d’élèves, de pays ? Comment expliquer une telle différence d’interprétation ? Comment d’une quantité délirante d’élèves « fragiles » et « à besoins » passe-t-on à une autosatisfaction aussi explicite et généralisée et à une si miraculeuse embellie ?

Mais peu importe, en réalité : pendant quelques semaines, on a fait semblant d’oublier, même si personne n’était dupe… et depuis, les nouveaux résultats TIMSS 2023 sont tombés. Dans le communiqué du ministère, on est soudain beaucoup moins enthousiaste : « les scores restent stables », « toujours en retrait ». Sans plus de commentaires.

Alors, tout ça pour quoi ?

Conclusion 1

Tous, nous avons passé des jours à lire à nos élèves des consignes déjà rédigées, à la virgule près. Tous, nous avons refusé de répondre aux questions de nos élèves. Tous, nous avons déserté notre corps et lu d’une voix blanche, mécanique et désincarnée les mots décidés par d’autres.

Tous, nous avons passé soirs et week-ends à cocher des cases, à en remplir d’autres. Au point de ne plus lire, de ne plus regarder, ni de qui il s’agit non plus que ce qu’il dit. Tous, nous l’avons fait, tous nous avons obéi. Nous sommes des agents de la fonction publique : on fait fonctionner la machine, peu importe ce qu’elle fait, peu importe ce qu’elle fabrique, peu importe ce qu’elle broie. Nous sommes toujours là. Peu importent ceux qui passent et ce qu’ils décident. Nous restons et nous fonctionnons.

Sauf que, pendant que je cochais des cases, j’ai senti mes neurones se faire la malle. Je me suis vue exécuter aveuglément, avec résignation, ce que d’autres avaient décidé qu’il était bon que je fasse. J’ai donc employé mon temps, mon intelligence, mon expérience, mon expertise, ma compétence, à cocher des cases.

Pendant des heures. de manière répétitive, abrutissante, absurde. Pourquoi ? Pour évaluer les enfants. Mais attention ! Pas n’importe comment : de manière « standardisée ». C’est-à-dire : sans analyser la nature de leurs erreurs, sans les observer, et même sans les regarder.

Je suis en colère : j’ai mis du temps, de l’énergie, dans une tâche, qui, dans le second degré, est faite par des machines. J’ai perdu mon temps et mon énergie pour cocher des cases, pour mettre mes élèves dans des cases, quand mon principal travail est de leur apprendre à en sortir.

Qu’il faille évaluer, c’est évident. Qu’il faille des indicateurs fiables sur l’apprentissage des élèves, c’est sûr. Mais les évaluer sans les regarder, ça n’a pas de sens. J’évalue mes élèves : je les regarde faire, je les écoute parler, je les observe se démener, je les regarde progresser, j’essaie de les comprendre pour les aider.

Comprendre pourquoi ça ne marche pas. Dans ce monde absurde, c’est moi qui coche les cases et c’est la machine qui prétend analyser le travail de mes élèves. Mon travail n’est pas de lire bêtement ce que d’autres ont écrit pour moi. Ce n’est pas de donner à faire ce que d’autres ont réfléchi pour moi.

Nous, les profs, nous ne sommes pas des exécutants : nous sommes des pédagogues, des créateurs, des inventeurs, des innovateurs. Qu’il faille des directives pour travailler dans le même sens, ça va de soi. Qu’on donne des ordres pour réduire nos élèves à des standards — pas vraiment. Je ne suis pas standard. Mes élèves non plus. Vous non plus.

Que déduire finalement de l’opération ? Au pire on décrète que c’est mauvais, et l’on peut dire, une fois de plus, que les petits Français sont nuls et mettre ça sur le dos des profs, des parents et des écrans. Au mieux ce sera mieux que quand c’était pire : et là, tout ira bien, on pourra se gargariser de réussite, on pourra continuer à recruter des quiches à coup de petites annonces sur les sacs à pain pour faire le travail dont plus personne ne veut — des exécutants qui pourront cocher des cases, pour continuer à dire que tout va bien.

Conclusion 2

Au fait, Galton, Pearson et consorts, qu’auraient-ils pensé de tout ça ? D’abord, ils auraient été émerveillés : quatre millions d’individus, des centaines de variables, de quoi faire rêver n’importe quel statisticien ! Songez que pour son test du chi-deux, Pearson avait demandé à son collaborateur Weldon (aidé de son épouse) de lancer 12 dés 26 306 fois. Alors une telle richesse de données, quelle opportunité !

Oui, mais pour l’exploiter à fond, encore aurait-il fallu être capable de dépasser le niveau élémentaire du « tri à plat », c’est-à-dire du résumé des résultats question par question sans aucune étude d’association des résultats entre eux, ou avec d’autres variables. N’aurait-il pas été intéressant, dans une véritable analyse statistique, de croiser les évaluations avec certains facteurs explicatifs, par exemple le revenu moyen des habitants de la commune, ou le nombre d’élèves dans la classe, ou le niveau de diplôme des parents, ou d’autres encore ? Il existe en France suffisamment de bons statisticiens, ne serait-ce qu’à l’INSEE, capables de réaliser, à partir d’un ensemble de données aussi riche, une analyse statistique digne de ce nom.

À ce propos, avez-vous trouvé le facteur de confusion, superbement ignoré par le ministère dans l’étalage de son autosatisfaction ? Reportez-vous quelques paragraphes en arrière : il a été question de deux exercices en particulier, « placer un nombre sur une ligne » et « trouver un nombre donné par sa décompostion ». La réaction des collègues, encouragée par les directives de l’inspectrice, n’est pas propre à ces exercices en particulier, ni à une école donnée. Elle est générale. Elle fait qu’à l’échelle nationale, les items échoués une année tendent à l’être moins l’année suivante. Le voilà le facteur de confusion, la voilà l’explication des progrès constatés ! Continuons à évaluer les mêmes items, et à préparer les élèves à ceux qui ont été échoués, et fatalement le niveau va monter. Quel niveau ? En tout cas, pas celui de la statistique.