Les nouvelles technologies pour l’enseignement des mathématiques
Intégration des TICE dans l’enseignement des mathématiques

MathémaTICE, première revue en ligne destinée à promouvoir les TICE à travers l’enseignement des mathématiques.

Faire corriger des copies d’élèves par l’IA : quels constats, quel avenir possible ?
Un fantasme bientôt réalité ?
Article mis en ligne le 15 janvier 2025
dernière modification le 23 janvier 2025

par Jean-Yves Labouche


L’intelligence artificielle prend une place grandissante dans notre société (un journal généraliste comme Le Monde a publié 34 articles sur ce thème rien que pour le mois de décembre 2024 dans son édition en ligne), et l’éducation est assurément concernée par ses avancées que ça soit par l’usage de plus en plus fréquent qu’en font les élèves ou dans ses applications destinées aux enseignants. Parmi toutes les tâches que l’on pourrait imaginer confier à une IA, la correction — ou du moins l’assistance à la correction — des copies serait sans doute un progrès majeur pour le métier d’enseignant, tout en soulevant d’importantes questions éthiques et morales. Si l’enseignant peut rester maître de la correction automatisée, l’IA peut représenter un gain de temps non négligeable pour une tâche souvent considérée comme peu gratifiante. Les exerciseurs en ligne permettent déjà d’évaluer les élèves de manière automatisée, mais dans un cadre très restreint et répétitif. La question qui se pose aujourd’hui est donc : « Les IA actuelles sont-elles capables de lire et d’analyser une copie manuscrite d’élève en lien avec une consigne précise ? »

Thibaud Hayette, professeur de Lettres et IAN dans l’académie de Lyon, a mené une expérience passionnante qu’il relate dans cet article : il a tenté de faire corriger des copies de français du DNB par ChatGPT. Le compte rendu détaillé qu’il en donne laisse entrevoir des possibilités très prometteuses, mais aussi de nombreux obstacles à surmonter, comme, par exemple, la reconnaissance de l’écriture manuscrite ou l’évaluation de la qualité du style et des connaissances de l’élève.

Cet article, publié en novembre 2024, m’a incité à m’intéresser à cette thématique pour voir si la correction de copies de mathématiques pourrait être, elle aussi, envisagée par une IA. C’est justement à cette période qu’est apparue, de manière assez discrète, une plateforme dédiée à la correction par l’IA : Examino. Créée par une équipe de développeurs français, elle se présente comme respectueuse du RGPD (voir le point 7 de ses mentions légales). Séduit par le concept, j’ai décidé de tester les possibilités de cette toute jeune plateforme. En plus de mes essais sur des copies de collégiens et de lycéens, j’ai pu échanger avec les développeurs : leurs réponses à mes questions donnent un éclairage intéressant sur les limites et les perspectives d’un tel outil.

Alors, faire corriger ses copies par une IA : fantasme ou réalité ?

 Premier contact avec la plateforme

Examino se présente comme une plateforme intuitive et simple à utiliser, permettant d’analyser et de pré-corriger des copies dans plus de vingt matières et sur quinze niveaux différents. Les développeurs prennent donc des précautions : il ne s’agit pas de confier totalement la correction des copies à l’IA, mais d’utiliser celle-ci comme un assistant.


Les avantages mis en avant sur la page d’accueil du site, au-delà de l’ergonomie de la plateforme, sont le gain de temps, la constance et l’objectivité dans l’évaluation.

Pour accéder aux services de correction, il faut d’abord créer un compte (une adresse e-mail et un mot de passe suffisent). Le compte gratuit se limite à dix copies par mois. Pour passer à cent copies par mois, il faut débourser 5,90 €/mois, et 14,90 €/mois pour trois cents copies. Cela représente un coût non négligeable, qui doit s’accompagner d’une efficacité réelle pour justifier la dépense.

Lorsque j’ai commencé mes tests, cette limitation n’existait pas. J’ai contacté les développeurs en leur expliquant mon intention de réaliser des tests pour la rédaction d’un article : mon compte a été débloqué et j’ai pu réaliser autant de corrections de copies que je le souhaitais, sans avoir à souscrire à une offre. Ils ont par ailleurs volontiers et rapidement répondu à certaines de mes questions, j’y reviendrai en fin d’article.

Une fois inscrit, on découvre une interface minimaliste et comme annoncé, très simple à prendre en main. Un bouton «  Corriger des copies » permet de lancer le processus en quatre étapes  :

  1. Choisir le niveau (du CP au Doctorat).
  2. Importer le sujet de l’évaluation : au format image (.jpeg ou .png) ou en PDF. Il est également possible de scanner directement le sujet avec un smartphone en commençant par flasher le code QR qui est affiché sur l’écran. Aucune installation d’application n’est nécessaire et c’est simple et assez rapide à effectuer.
  3. Importer les copies : exactement sur le même principe que pour le sujet. L’usage du smartphone peut toutefois s’avérer chronophage avec des copies doubles nombreuses : il me semble plus efficace de recourir à un scanner classique, pour gagner du temps et obtenir des fichiers de meilleures qualités (et donc plus lisibles pour l’IA). À ce stade, la plateforme demande d’anonymiser les copies (masquer le nom des élèves avec un papier au moment de scanner est assez simple à faire).

Une fois cette troisième étape accomplie, la plateforme génère un corrigé de l’évaluation. Sur certains sujets, le résultat s’avère assez bluffant même s’il reste encore pas mal d’erreurs à reprendre. Par exemple, pour une évaluation sur le calcul matriciel en terminale (option Maths Expertes), voici ce que cela peut donner pour un exercice :

Le sujet est fourni à l’IA au format PDF

Ce corrigé et son barème doivent être validés par l’enseignant avant que l’IA se lance dans la correction des copies. Le corrigé est totalement éditable et les formules mathématiques sont gérées en LATEX ce qui est très appréciable.

Édition du corrigé proposé avec un aperçu en temps réel des modifications apportées. Les formules en LATEX sont parfaitement interprétées.

4. Enfin, on peut lancer la correction automatisée des copies. C’est relativement rapide. La plateforme produit alors, pour chaque copie, une correction détaillée, exportable au format Word (une fonctionnalité qui n’existait pas au tout début de mes tests, mais que j’avais suggérée aux développeurs).

Dans un premier temps, l’IA fournit un bilan plutôt bien détaillé de la copie de chaque élève (il est possible le choisir le tutoiement ou le vouvoiement dans les commentaires) :

Puis elle propose le détail de sa correction de la copie, exercice par exercice :

Pour info, voici la partie de la copie correspondant à ces commentaires :

Il est possible, une fois la correction terminée de reprendre le corrigé pour le préciser ou le modifier et de relancer une correction des copies.

Cette copie est la première que j’ai testée : il faut reconnaitre que la simplicité d’utilisation de plateforme et ce premier résultat sont fort séduisants, même si on constate une application très généreuse du barème sur cette première copie ainsi que l’oubli d’erreurs manifestes dans le deuxième exercice. C’est à partir de ce premier test que la simple curiosité de départ s’est transformée en véritablement envie d’aller plus loin et que la possibilité d’écrire un article s’est fait jour.

Il est donc temps de passer à des tests sur un lot complet de copie pour voir où l’outil se révèle pertinent et quelles sont ses faiblesses.

 Analyse de la correction par l’IA d’un lot de copies de 6e

  Contexte

Il s’agit ici de proposer à l’IA la correction d’un lot de 17 copies de 6e. Ce travail a été préparé spécialement pour pouvoir tester les capacités de Examino à s’adapter à différents types d’exercices (calculs posés, résolutions de problèmes, construction géométrique et vocabulaire). Les élèves étaient prévenus qu’il ne s’agissait pas d’une véritable évaluation et le contexte leur a été présenté. Ils ont tout de même reçu la consigne de faire de leur mieux. Il s’agit d’une classe assez hétérogène et de la dernière séance avant les vacances de Noël… Ils ont malgré tout très bien joué le jeu !

  Le sujet, le barème et la correction proposée par l’IA

Dans le tableau ci-dessous, je montre, côte à côte, les exercices que j’ai donnés et la correction qui en est proposée par l’IA. Juste en dessous, j’en fais un commentaire rapide et je montre l’éventuelle modification que j’ai faite. C’est cette modification qui sera prise en compte lors de la correction des copies.

Exercice Correction proposée par l’IA
L’IA utilise de la virgule comme séparateur des classes. Elle commet une erreur dans la lecture de la division (d’où vient le 7 ?).
Ci-dessous, la correction reformulée :
Formulation étrange, mais correction juste.
La construction codée n’est pas donnée par l’IA et il n’est pas possible de la donner manuellement. Je ne modifie donc pas cette correction.
La réponse proposée est correcte (sans rédaction). Mais le barème ignore totalement que les 9 points ne sont pas répartis sur les 2 problèmes à résoudre, mais sur les 3 compétences évaluées sur les deux problèmes.
Correction reformulée :
Le résultat proposé est faux, mais il est difficile de comprendre d’où vient l’erreur.
Correction reformulée :

  La correction des copies par l’IA

Je ne vais pas donner ici la correction de toutes les copies, mais, pour chaque exercice, celles qui me paraissent les plus significatives ou intéressantes à signaler. Forcément, ce sont les erreurs de l’IA que je pointe le plus souvent. Mon but n’est évidemment pas de faire un compte rendu à charge contre cet outil, mais de soulever les problèmes rencontrés.

  Exercice 1

Sur les 17 copies, seulement 7 sont correctement corrigées.

Les réponses correctes sont bien identifiées : les 7 copies qui sont bien corrigées sont toutes des copies sans erreurs sur ces 3 calculs.
Ici, l’IA ne voit pas l’erreur dans la première multiplication et pour la seconde il compte juste un résultat qu’elle devrait savoir faux (la lecture du résultat est correcte).
Ici une multiplication fausse est comptée juste alors que la division, qui est correcte, est comptée fausse. Ce sont deux erreurs de corrections qui sont fréquentes.
Encore deux multiplications fausses qui sont validées.
Erreur de lecture de la part de l’IA : l’élève a bien écrit un « 7 ». L’erreur est jugée « mineure » sans justifier plus.

Si on regarde maintenant les écarts de notation entre l’IA et moi, on se rend compte que l’écart n’est pas si grand que ça. Mais certaines erreurs de correction se compensent, comme on l’a vu dans le deuxième exemple ci-dessus. Voici le détail sur les 17 copies (notation sur 3 points) :

  Exercice 2

Beaucoup plus de réussite de la part de l’IA sur cet exercice qui est certainement plus facile à lire que les calculs posés. Sur les 17 copies, 11 sont correctement corrigées. 10 d’entre elles étaient sans erreurs. Il y avait une erreur sur la dernière qui a été bien vue par l’IA.

Sur 5 copies, l’IA ne voit pas une erreur faite par l’élève (ici l’élève a écrit « 18 » au lieu de « 28 » pour la différence entre 45 et 17).
Ici, l’IA compte juste, avec le maximum de points, alors que l’élève n’a pas compris la question. Mais cela est cohérent avec la compétence évaluée « connaitre le vocabulaire des opérations ».

Encore une fois, l’écart entre ma notation et celle de l’IA n’est pas très significatif sur la majorité des copies (notation sur 3 points) :

  Exercice 3

Ici l’IA ne pénalise jamais l’absence de codage sur les constructions. Mais surtout, elle valide des constructions fausses sur 6 copies.

Cette fois, la correction de l’IA est extrêmement généreuse ! La différence avec mon évaluation est très importante (notation sur 6 points) :

  Exercice 4

L’IA évalue séparément les deux problèmes alors que les trois compétences évaluées devraient être considérées sur les deux. La consigne de rédaction n’est pas prise en compte dans l’évaluation par l’IA.

L’IA ne fait pas la différence entre une copie bien rédigée et une sans rédaction. Le barème est pourtant clair sur ce point.
Ici l’IA voit que le résultat final est erroné, mais par contre « invente » un calcul initial correct qui est totalement absent de la copie.
Ici encore, il y a une erreur dans l’analyse de l’erreur : la division est correctement posée.
Erreur de lecture des réponses données par les élèves.
Les bonnes réponses (majorité des copies) sont toutes validées par l’IA.

Pour ma correction, j’ai décidé de noter chacun des deux problèmes sur 4,5 comme l’a fait l’IA. J’ai donc abandonné l’évaluation des 3 compétences. Cette fois encore, l’IA est bien plus généreuse que moi. Mais on remarque une certaine cohérence : les copies les plus faibles sont les mêmes pour elle et moi, les copies les meilleures aussi. Le détail (notation sur 9 points pour les deux problèmes) :

  Quel bilan ?

Avec les écarts significatifs de notation sur les exercices 3 et 4, comparer les notes attribuées par l’IA à chaque copie avec les miennes ne présente que très peu d’intérêt. Les différences sont conséquentes. Il est plus intéressant de revenir sur les exercices et de remarquer que la moitié d’entre eux ont été « bien corrigés » par l’IA : 35 exercices (sur 68, total sur les 17 copies) ont un écart inférieur ou égal à 0,5 point par rapport à ma correction. C’est une belle performance. Mais en y regardant de plus près et à la vue de certaines erreurs de correction (réponses fausses validées), on peut se demander si les corrections réussies sont dues au hasard ou pas. De plus, on l’a vu, certaines erreurs de correction se compensent.

Il semble évident que l’IA a plus de difficultés à lire les réponses des élèves lorsqu’il y a des calculs posés. Cela était prévisible. Quant à la construction géométrique, l’IA n’a visiblement pas les moyens de vérifier si elle est fausse, si elle est codée et si les traces du compas sont apparentes. Là encore on comprend les difficultés d’analyse et on pouvait prévoir de telles difficultés.

Le taux de réussite est bien supérieur pour l’exercice 2, où les réponses fournies par les élèves sont courtes et écrites à un endroit précis de la copie. L’évaluation des problèmes est également encourageante. L’IA a été généreuse, car elle n’a pas pénalisé l’absence de rédaction, mais elle est globalement en accord avec ma correction.

 Premières conclusions

Les autres tests que j’ai pu mener, en terminale, confirment les difficultés et les réussites observées sur ce lot de copies de sixième.

L’outil est prometteur et séduisant, on ne peut pas le nier. Mais il est encore très jeune et encore très perfectible. Son manque cruel de fiabilité (en mathématiques) dans de nombreuses situations fait qu’il est peu probable qu’il soit adopté par les collègues dans l’immédiat. Mais à la vitesse où l’IA progresse actuellement, nous pouvons raisonnablement penser que dans peu de temps la correction de copie assistée par l’IA sera une réalité et que Examino deviendra un outil incontournable pour l’enseignant.

 Le mot des développeurs

Pour aller un peu plus loin dans la compréhension de l’outil et de son devenir, j’ai posé quelques questions aux développeurs. Les voici, avec les réponses que j’ai obtenues de la part de Dimitri NICOLAS, co-fondateur, avec Dorian COLIN, de l’agence OOEO dont Examino est un des projets. Je le remercie vivement pour sa disponibilité et sa franchise dans ses réponses.

  • Quelles indications est-il conseillé de donner sur les sujets des évaluations pour obtenir un résultat le meilleur possible ?

Les sujets importés peuvent être identiques à ceux qu’un enseignant avait l’habitude de distribuer à ses élèves. Aucun changement dans la modalité de l’évaluation n’est nécessaire pour la rendre compatible avec Examino.
En revanche, il est important de bien définir un barème adapté pour sa correction par l’IA (la liste des questions, de leur note maximale et leur réponse attendue, à la dernière étape de l’import d’une évaluation). Le barème initial suggéré par l’IA est optimisé pour une correction par l’application. La forme des réponses attendues peut donc être suivie par l’enseignant s’il le modifie ou le reformule de toute pièce.
Aussi, pour les évaluations type dissertation, avec une unique consigne : il est à la fois possible de configurer un barème avec une seule question ou de séparer la notation avec plusieurs questions et leur note associée (par exemple : Introduction, Développement et Conclusion).
Ces deux stratégies fonctionnent toutes aussi bien avec l’application.

  • Est-ce que vous avez développé votre propre IA ou bien utilisez-vous un moteur déjà existant ?

Nous utilisons plusieurs modèles d’IA différents, sélectionnés en fonction de divers paramètres : l’étape du traitement, le niveau d’enseignement, la forme de l’évaluation et sa discipline.
Nous faisons régulièrement évoluer ces traitements par l’IA pour produire des corrections encore plus cohérentes, pour tout type d’évaluation.

  • Il n’est pas possible de donner un feedback à la plateforme sur ses corrections : comment progresse-t-elle si elle ne sait pas si ses productions sont correctes ou pas ?

Vous soulevez un point important concernant le feedback et vous avez vu juste ! Nous prévoyons prochainement de permettre aux enseignants de partager depuis l’application un niveau de satisfaction au regard des appréciations générées par l’IA. Jusqu’à présent, nous avons la chance de bénéficier de nombreux retours des enseignants via le chat de support disponible dans l’application. Les actions d’amélioration des résultats produits par l’IA étant essentiellement manuelles, imaginées au cas par cas par notre équipe, les échanges avec les utilisateurs sont donc pour le moment suffisamment utiles pour faire évoluer les systèmes de correction.

  • Je constate de grandes difficultés sur la correction de constructions géométriques (respect des dimensions, mais aussi des formes, utilisation du compas…). Est-ce que des pistes d’améliorations dans ce domaine en particulier sont à l’étude ?

Nous sommes tout à fait conscients des difficultés qu’à l’IA pour corriger des productions graphiques (telles qu’une construction géométrique, par exemple) ; mais également pour corriger des exercices scientifiques (telles qu’en mathématiques, par exemple). Cela peut parfois paraître contre-intuitif (car nous pourrions penser l’IA comme étant un outil très scientifique), mais l’IA aura plus de difficultés à produire une correction pertinente pour ces types d’évaluations. À l’inverse, nous observons un bien meilleur degré de satisfaction et une utilisation plus régulière par les enseignants de matières impliquant la production de devoirs pour lesquels les réponses attendues sont littéraires (telles qu’en langue, en histoire-géographie ou en philosophie, par exemple). Nous nous apprêtons à intégrer une nouvelle génération de modèles d’IA en phase d’expérimentation, qui promet des résultats plus pertinents pour les appréciations générées par l’application. Les modèles d’IA qui ont la capacité de corriger des réponses graphiques (incluant diagramme, géométrie ou symboles mathématiques, par exemple) évoluent très rapidement et nous sommes très confiants sur l’apport qu’auront ces évolutions à la correction des copies assistée par l’IA.

  • Je constate une certaine discrétion de votre part en termes de communication sur l’existence de Examino (sur les réseaux sociaux par exemple). Est-ce parce que vous attendez que l’outil atteigne une certaine maturité et de meilleures performances ?

Notre discrétion actuelle sur les réseaux sociaux est pleinement due à un manque de temps de notre équipe ! Nous consacrons toute notre énergie à l’ajout de nouvelles fonctionnalités et à l’optimisation des performances de l’application.

  • Quelles sont les perspectives de développement et de progression de la plateforme à court, moyen et long terme ?

Ayant la chance de pouvoir échanger fréquemment avec les utilisateurs de la plateforme, nous prévoyons à court terme de déployer de nombreuses nouvelles fonctionnalités dans l’application. Nous continuons à étudier chaque retour et à améliorer les performances des systèmes de correction en continu. Ce sont, par exemple, près de 80 mises à jour qui ont été déployées au cours des 30 derniers jours. Notre vision est simple, nous souhaitons proposer un outil qui soit réellement utile pour ses utilisateurs et qui ait un impact positif dans l’écosystème. Pour cela, nous tâchons d’améliorer continuellement sa facilité de prise en main et la pertinence des corrections produites par l’IA.

 Alors, fantasme ou réalité ?

Voilà, tout est dit : l’outil est prometteur, les difficultés sont réelles pour obtenir des résultats de qualité, mais les perspectives de progressions sont, elles aussi, bien réelles et pourront être rapides. Il nous reste donc à être un peu patients et à donner un peu de temps à ces outils pour qu’ils atteignent la maturité que nous attendons. Faire corriger ses copies par une IA sera très certainement bientôt une possibilité bien réelle, mais, en attendant, les corrections se feront essentiellement à la main.