Dans deux classes de CM2, une séquence d’enseignement sur le décryptage par analyse de fréquence a été réalisée pendant l’année 2020—2021, en grande partie à distance pour cause de crise sanitaire. Le déroulement de la séquence est décrit ici, avec les objectifs qui ont été atteints.
par Mathilde Scandolari, Sarah Leleu
Le décryptage par analyse de fréquence, décrit dans un mémoire d’al-Kindi au neuvième siècle, est la plus ancienne trace historique qui ait été conservée, à la fois en cryptologie et en statistique. Il se prête particulièrement bien à des activités liées au chapitre « Nombres et calculs » du cycle 3. Une séquence a été implémentée dans nos classes de CM2, en grande partie à distance pour cause de crise sanitaire. Elle s’est conclue par une « chasse au trésor » qui a montré que les enfants avaient parfaitement intégré la technique de l’analyse de fréquence.
N.D.L.R : Les deux documents joints au bas de l’article restituent en haute définition, les images cryptées de l’article. De plus, ils décrivent une démarche efficace de décryptage.
L’article qui suit peut se lire avec profit avec ces deux autres articles :
Contexte historique
Il est rare, dans l’histoire des mathématiques que l’on puisse associer une théorie à une source identifiée. Le cas du mémoire d’al-Kindi (ca 800—880) « Sur le déchiffrement des messages cryptographiques » est unique. C’est le mémoire le plus ancien traitant de cryptologie ; il est antérieur d’au moins trois siècles à tout autre document connu. Il se trouve que c’est aussi le plus ancien mémoire qui traite de statistique, un millénaire avant que celle-ci ne devienne une science. Quel est donc le rapport entre cryptologie et statistique ? C’est ce que l’on désigne de nos jours par « analyse de fréquence ». Al-Kindi l’exprime de façon parfaitement claire.
La façon d’élucider un message crypté, si nous savons dans quelle langue il est écrit, est de nous procurer un autre texte en clair dans la même langue, de la longueur d’un feuillet environ, et de compter alors les apparitions de chaque lettre. Ensuite, nous nous reportons au texte chiffré que nous voulons éclaircir et relevons de même ses symboles. Nous remplaçons le symbole le plus fréquent par la lettre première (la plus fréquente du texte clair), le suivant par la deuxième, le suivant par la troisième, et ainsi de suite jusqu’à ce que nous soyons venus à bout de tous les symboles du cryptogramme à résoudre.
Al-Kindi ne se contente pas d’exposer la méthode, il donne une estimation des fréquences des lettres en arabe, après en avoir compté 3667 : le premier échantillon statistique connu. La lettre la plus fréquente en arabe est « Alif » ; en français, c’est le « E ». Al-Kindi se montre conscient que la méthode ne s’applique qu’aux codes dits monoalphabétiques, ceux où chaque caractère du texte initial est remplacé par un symbole et un seul, lettre ou autre. Le plus ancien de ces codes monoalphabétiques est celui que l’on appelle « code de César », à cause de la citation suivante de Suétone, qui ne prétend d’ailleurs pas que Jules César en soit l’inventeur.
Il y employait, pour les choses tout à fait secrètes, une espèce de chiffre qui en rendait le sens inintelligible (les lettres étant disposées de manière à ne pouvoir jamais former un mot), et qui consistait, je le dis pour ceux qui voudront les déchiffrer, à changer le rang des lettres dans l’alphabet, en écrivant la quatrième pour la première, c’est-à-dire le D pour le A, et ainsi de suite.
Le code de César est particulièrement vulnérable à l’analyse de fréquence, puisqu’il suffit de remplacer la lettre la plus fréquente par E, la suivante dans l’alphabet par F, et cetera. Il convient de noter que l’analyse de fréquence est fondée sur une croyance largement mythique en la probabilité des lettres. On suppose toujours tacitement, que les fréquences de chaque lettre dans une langue donnée sont des quantités absolues et invariables, et que la fréquence d’une lettre donnée, observée dans n’importe quel texte, est d’autant plus proche de la fréquence théorique que le texte est plus long. Cette croyance largement répandue, est une mauvaise interprétation de la Loi des Grands Nombres, qui n’a commencé à être mise en doute que très récemment. C’est d’autant plus paradoxal que les lipogrammes, à savoir les textes écrits sous contrainte (par exemple sans la lettre E) sont pratiqués depuis la plus haute antiquité : « La Disparition » de Georges Pérec, suffit à prouver que le E n’est pas toujours la lettre la plus fréquente ! Plus de détails sont donnés dans La statistique littéraire. Voir aussi sur le même site La proportion des voyelles, ainsi que Cryptographie automatique.
Exploiter en classe l’analyse de fréquence, n’est certes pas une idée nouvelle. Des notions de statistique sont au programme dès le cycle 4, et compter des lettres est une des activités statistiques les plus faciles à réaliser par les élèves. Naturellement, des implémentations didactiques du code de César et de l’analyse de fréquence ont été proposées pour le cycle 4, par exemple dans le cadre du projet « 1,2,3… codez ! » de la Main à la Pâte, ainsi que par Cécile Prouteau : Code de César et analyse fréquentielle (Cycle 4) et Joan Riguet : Cryptographie à partir du visionnage du film The Imitation Game. Même si la statistique n’est pas au programme des cycles précédents, familiariser les élèves avec la notion de code et de fréquence ne peut que leur être bénéfique ; d’autant que les pourcentages, eux, sont bien au programme du cycle 3. Pour la « Semaine des Mathématiques » de l’Académie de Belfort en 2017, un projet de cycle 3 avait été proposé : Codage et code secret : coder pour cacher.
Durant l’année scolaire 2020-2021, nous avons décidé d’enseigner le programme de mathématiques dans nos classes de CM2 en utilisant une approche à la fois ludique et historique, basée sur le site Histoires de Mathématiques de Bernard Ycart, que nous avions pour nos élèves promu au rang de « coach ». La séquence décrite ici fait partie de cette expérience. Une autre partie est présentée dans Une approche esthétique de la géométrie en CM2.
Séquence de décryptages
Cette année scolaire a été particulièrement perturbée par la crise sanitaire, et une partie de l’enseignement a dû se faire à distance en l’absence de la maîtresse. Pendant cette période, des énigmes mathématiques étaient proposées aux élèves de manière quotidienne, jeu auquel les enfants (et quelquefois leur entourage, frères et sœurs, parents, et même collègues de travail des parents !) se sont prêtés avec enthousiasme. Parmi ces énigmes, voici le premier message codé adressé par le coach, pendant la période des vacances scolaires prolongées (document complet associé à l’article).
Techniquement, les codages monoalphabétiques ont été réalisés en Latex. Les symboles utilisés sont des signes mathématiques du package amssymb, avec les couleurs du package graphicx. Chaque lettre de l’alphabet a été associée à une commande Latex, ce qui permettait d’automatiser le codage, tout en évitant les erreurs. Cela a permis aussi de changer facilement de code d’un défi à l’autre. La même structure Latex a été utilisée ensuite pour les codes de César, avec des lettres à la place des symboles mathématiques.
Le premier défi était accompagné d’une règle du jeu succinte et d’un conseil : « Commencez par compter les symboles les plus fréquents ! ». La fréquence des lettres en français complétait le message. Les jours suivants, des indices étaient dévoilés graduellement, la traduction du message étant révélée le septième jour.
À distance, tous les enfants ne se sont pas emparés de ce nouvel exercice. Néanmoins, beaucoup se sont vite pris au jeu, réclamant rapidement de nouveaux messages du même genre. Certains des élèves qui ont relevé le défi étaient parvenus à déchiffrer le message dès le premier jour. Au retour à l’école, nous avons repris ensemble le même message codé, les élèves qui avaient déjà trouvé ont aidé leurs camarades à comprendre le système du codage. Au départ, les élèves utilisaient l’analyse de fréquence. Ensuite, ils se sont aussi appuyés sur la longueur des mots (les mots d’une lettre ou deux lettres étant plus faciles à deviner comme « A » ou « ET »), pour enrichir leur répertoire de symboles et compléter le décodage.
Tous les enfants ont finalement réussi à lire le texte et ils ont été très contents d’avoir un message personnel du coach qui les félicitait de leur travail durant cette période difficile. Cette étape où l’entraide était autorisée a été gratifiante pour les enfants, puisque personne n’était laissé seul face à sa difficulté, ce qui a permis à tous de se trouver en situation de réussite à la fin de la séance.
La motivation était ainsi entretenue pour les exercices suivants. Les élèves les plus en difficulté ont bénéficié de l’aide de leurs pairs, ils ont pu progresser à leur rythme ; les enfants les plus rapides, quant à eux, se sont sentis valorisés de pouvoir épauler leurs camarades. Ils ont pu travailler leurs compétences orales de verbalisation, de reformulation, affiner leur vocabulaire et faire œuvre de pédagogie envers les autres ; les compétences d’éducation morale et civique ont aussi été sollicitées (respecter ses camarades, accepter leurs différences, collaborer à la recherche d’une solution).
Quand le second message a été envoyé, celui-ci utilisait le code de César, et était donc plus facile à décoder que le premier (document complet associé à l’article). Les enfants avaient déjà compris le principe de fréquence des lettres depuis le premier message. Ils ont donc rapidement trouvé comment décoder la lettre la plus fréquente du texte, puis appliquer le décalage trouvé à tout l’alphabet afin de traduire le message en entier. Ils réalisaient leur outil de décodage en recopiant l’alphabet avec les lettres du codage en dessous ; ainsi ils pouvaient facilement trouver comment décoder tous les mots. Le début de la séance, pour la phase de recherche, a été fait en classe. La fin du texte devait être décodée à la maison, sans l’aide des pairs. Par la suite, les exercices proposés ont été faits essentiellement en autonomie (les élèves devaient les décoder chez eux) ou comme activité récréative en classe. Une fois acquis le principe de l’analyse de fréquence, les enfants ont ensuite décodé seuls les différents messages que le coach proposait : il y a bien eu des poèmes avec le code de César, mais les enfants ont eu tendance à préférer les recettes de cuisine du coach, codées en symboles !
Après plusieurs défis du même type, les élèves étaient parfaitement familiers avec les notions de fréquence et de pourcentage, figurant au programme du CM2 au chapitre « Nombres et calculs ». Pour autant, nous avons évité de leur présenter les fréquences des lettres comme des constantes inaltérables. Depuis le début de l’année, pendant les créneaux horaires de français, les élèves avaient été invités à composer des alexandrins, exercice qu’ils maîtrisaient parfaitement au troisième trimestre. En fin d’année, une séance a été consacrée à la composition d’alexandrins ne contenant pas la lettre E, des lipogrammes donc. L’exercice était difficile et tous ne l’ont pas réussi. Mais le lien avec les calculs de fréquences a bien été effectué, et tous ont bien compris que la fréquence des lettres pouvait être biaisée à volonté.
Chasse au trésor
Pour clore et évaluer la séquence, essentiellement constituée de travaux en autonomie, une chasse au trésor a été organisée en fin d’année scolaire. Cette chasse au trésor a été présentée aux élèves comme une surprise et comme une activité très ludique et de pur plaisir partagé pour finir l’année, et absolument pas comme une évaluation.
L’organisation était la suivante.
- Des extraits des fables de La Fontaine, sur lesquelles nous avions travaillé en classe, avaient été codés, mis sous enveloppe et cachés dans le parc près de l’école. Les élèves, par équipe, devaient les retrouver. C’était l’étape physique de « la course » à proprement parler. Chaque équipe devait récupérer une enveloppe avec, à l’intérieur, un extrait de fable codé.
- Une fois les enveloppes trouvées, les enfants ont souvent décidé de se répartir les rôles. Les extraits étaient codés en code de César : l’un d’entre eux comptait les lettres, cherchait la plus fréquente, et une fois cette lettre trouvée, un autre élève écrivait l’alphabet correspondant au codage, enfin un dernier prenait en charge le décryptage.
- Une fois l’extrait décodé, les enfants avaient des recueils de fables à disposition, ils devaient trouver de quelle fable provenait chaque extrait.
- Pour finir, un dernier codage guidait les enfants pour retrouver dans chaque extrait un mot (le codage indiquait le numéro du vers et l’ordre du mot dans le vers). La dernière étape collective consistait à assembler les mots dans le bon ordre de façon à reconstituer un alexandrin :« Achevons tantôt de trouver le grand trésor ». Cet alexandrin était la clé du trésor, constitué de diverses surprises.
L’activité a été un succès auprès des enfants qui ont été très enthousiastes. Ils ont réalisé l’ensemble des épreuves en complète autonomie une fois les consignes données. Les épreuves étaient assez difficiles pour maintenir leur motivation et entretenir l’aspect “challenge”, mais aussi assez accessibles en réinvestissant les exercices de décryptage déjà faits en classe les semaines précédentes.
L’évaluation a été positive à plusieurs titres. Tout d’abord le plaisir que les enfants ont manifesté témoigne d’un réel intérêt et d’une compréhension suffisante des notions abordées pour que les enfants considèrent l’activité comme attrayante. Ensuite, le décodage des extraits de fables a été réalisé bien plus rapidement que prévu, les enfants ayant bien intégré les mécanismes déjà utilisés auparavant.
Une élève de la classe s’est emparée du sujet pour présenter à la classe un exposé sur Alan Turing et la cryptanalyse. Elle a expliqué les principes du code réalisé par la machine Enigma et fait des liens avec les exercices réalisés en classe. Le sujet était suffisamment bien maîtrisé pour qu’elle puisse répondre aux questions nombreuses de ses camarades, et l’ensemble de la classe a été captivé par cet exposé.
Cette séquence a donc permis aux élèves, non seulement d’aborder un point du programme de cycle 3, mais aussi de se familiariser avec des notions qu’ils retrouveront plus tard dans leur parcours scolaire. L’approche ludique qui a été choisie leur a permis d’entrer dans l’activité avec curiosité et envie, comme en témoigne leur capacité de travail en autonomie au fil des exercices. L’évaluation lors de la chasse au trésor a montré une réelle aisance dans le décryptage des messages proposés. Au fil des séances, la capacité de travail, aussi bien en individuel qu’en groupe, a été améliorée. Le plaisir pris par les enfants dans le travail de recherche leur a permis d’aborder des notions mathématiques comme un jeu, sans appréhension et avec enthousiasme.