Comment penser la formation en probabilités d’un élève sortant du lycée au 21ème siècle ?
Voici quelques pistes en vue de nourrir la réflexion sur des progressions possibles d’un enseignement moderne de la théorie des probabilités. Elles permettent aux futurs citoyens que l’école doit former :
| |
Nous partons du principe que cette formation commence dès l’école et continue tout au long de la scolarité. Nous distinguons trois temps, celui de l’école, celui du collège et celui du lycée :
Il s’agit ici d’une vision prospective à long terme, l’école élémentaire n’étant pas aujourd’hui concernée. Cette vision permettra de s’orienter pour construire peu à peu une cohérence verticale de la formation, en évitant les répétitions sans avancées et l’apparition d’une pratique des probabilités propres à la scolarité, qui dérive loin des usages professionnels ou citoyens.
Notre propos est en grande partie fondé sur la recherche des bases à acquérir pour comprendre la statistique ; la combinatoire qui a longtemps été au centre de l’enseignement des probabilités au lycée est marginalisée dans cette approche [1]. Pour ce qui est du lycée, nous proposons des sujets à répartir entre différentes disciplines : si le cœur d’un enseignement des probabilités est en mathématiques, cette discipline diffuse très naturellement vers la physique et les SVT.
Nous insistons ici plus sur les premiers pas vers l’aléatoire, c’est-à-dire sur l’école et le collège : c’est là que les questions sont les plus vives. Ces premiers pas sont fondés à la fois sur une vision de la discipline et aussi par ce qu’on souhaite traiter en fin de scolarité et qui est ici simplement énuméré.
On a posé à des élèves de CM1 et de CM2 de Grenoble [2], en 2006, la question suivante :
Les réponses (voir encadré ci-dessous) peuvent être classées en plusieurs catégories :
Ces réponses reflètent une connaissance a priori qui, à ce niveau, nous semble « juste » [3].
D’autres réponses sont peu classables (après discussion avec l’enseignant, nous ne pouvons pas savoir si l’élève qui a dit que le hasard « c’est quand c’est pas » a une intuition extraordinaire des liens entre hasard et désordre, ou s’il a confondu « c’est le hasard » avec « c’est le bazar »).
Réponse d’élèves de CM1-CM2 à la question : que signifie pour vous le hasard ?
- Quand on ne sait pas ce qui va se passer.
- C’est une chose où on ne peut pas savoir la réponse/ quelque chose que tu ne peux pas prédire/tirer au sort.
- Une désignation au pif / c’est répondre sans réfléchir ; exemple : quelqu’un te dit « combien un chat a-t-il de pattes ? » et tu lui réponds « 3 ».
- C’est quand tu réponds et tu ne sais pas la réponse.
- Veut dire sans le faire exprès.
- Le hasard est une chose où on peut avoir de la chance et de la malchance.
- Une coïncidence / par exemple, on trouve un billet de 50 euros par terre.
- C’est quand c’est pas rangé.
- Le hasard n’existe pas.
- Le hasard c’est un peu de tout.
- Des évènements mystérieux de notre vie.
Les élèves des écoles n’ont pas d’intuition de la loi de grands nombres (qui nécessite une bonne manipulation des proportions) et pour eux, l’emploi du terme chance est aussi lié à l’effectif (ainsi, parler de 2 chances sur 3 de tirer une boule blanche dans une urne à 3 boules dont 2 blanches, ce n’est pas pareil que parler de 4 chances sur 6 de tirer une boule blanche dans une urne à 6 boules dont 4 blanches si on parle d’effectifs et non de probabilité).

On pourra commencer par travailler sur des termes « de la vie de tous les jours » :
Cette question d’absence de mémoire justifie de travailler en primaire sur les dés :
Il est important de réfléchir à l’indépendance des résultats vue sous l’angle d’absence de mémoire car :
Un exemple : L’apparition du 6 semble à beaucoup d’élèves et de professeurs plus rare que celle des autres chiffres ; cette rareté du 6 relève d’un ressenti en contradiction avec les chances égales. Dire qu’il s’agit d’une impression fausse peut apparaître comme un argument d’autorité ; par contre, en discutant sur des situations où il semble en être ainsi, on arrive au fait que le « 6 gagnant » de nombreux jeux est plus rare que l’ensemble des 5 autres chiffres, qui eux ne sont pas gagnants. (Sans le dire, on passe des probabilités des éléments à celle des évènements et cet exemple pourra être repris lors de l’introduction du calcul des probabilités).
On devra à un moment donné s’interroger sur ce dont on parle quand on dit « un dé équilibré à N faces », que ce dé soit un objet réel ou électronique : c’est un procédé de simulation de la distribution de probabilité équirépartie sur 1,..,N. Cela impose en particulier le modèle à considérer pour les données, à savoir que les probabilités des 6n résultats possibles pour n lancers sont égales.
De même, les pièces de monnaie ne sont pas conçues pour la simulation, mais il se trouve qu’on peut les utiliser pour simuler la loi équirépartie : si on parle d’une pièce équilibrée, c’est qu’on la considère comme générateur possible de listes de pile, face avec équirépartition de ces deux issues.
Quand on dit : on choisit n boules au hasard dans une urne avec N boules, avec remise, on ne parle pas là non plus de comment on peut réaliser cela, mais du fait qu’on simule une loi équirépartie sur 1,…,N.
Il conviendrait, dans le cadre de l’enseignement des probabilités, de garder le terme hasard (ou de « hasard pur ») pour parler de modèle équiréparti, et de se souvenir que l’esprit humain est un piètre générateur de nombres au hasard.
Dans l’expérience « franc-carreau » on dit souvent « on lance une pièce au hasard sur un plan quadrillé » : or en pratique on ne sait pas lancer un pièce de telle sorte qu’un modèle raisonnable du point où tombe le centre de la pièce soit la loi uniforme sur le carré ; il conviendrait de dire qu’on lance la pièce sans viser. Si on veut lancer une pièce au hasard sur un quadrillage, alors il faut utiliser un simulateur du hasard, c’est-à-dire faire une expérience virtuelle.
Enfin, parler d’expériences aléatoires identiques, c’est par convention parler d’expériences relevant du même modèle probabiliste ; les lancers de dés équilibrés sont identiques car relevant de la même distribution équirépartie sur 1,…,6. Cette précision étant donnée, on ne s’étonnera pas d’avoir des expériences identiques donnant des résultats différents.
C’est l’occasion pour l’élève :
Diverses situations peuvent être construites autour de ce thème.
Nous mettons sous le vocable « dé électronique » les programmes permettant de simuler une loi équirépartie sur un ensemble fini d’entiers. Parler de dés électroniques a n faces, dans la continuité d’expériences avec des dés « réels » ne pose pas vraiment de problèmes aux élèves dans la mesure où ils ont compris que la raison d’être des dés est de permettre la production de listes de nombres choisis « avec des chances égales » et indépendamment les uns des autres. Qu’un ordinateur ou une calculatrice de poche produise rapidement de telles longues listes n’est pas de nature à surprendre cette génération de « numerical natives ».
On peut alors réaliser des représentations graphiques telles que la suivante, relative aux fréquences de chaque face d’un dé après n lancers, n=1…5000, ou à une expérience à deux issues :


On voit ainsi la distribution des fréquences « converger vers la distribution des fréquences théoriques ou distribution de probabilités » : il est intéressant à ce niveau de quitter le vocabulaire « une chance sur 6 » pour employer une terminologie plus spécifique (ce qui n’interdit pas pour autant de revenir au langage des chances dans des cas où cela n’introduit pas d’ambiguïtés).
Le terme distribution de probabilités semble plus compréhensible, au niveau scolaire, que le terme de loi de probabilité.
A ce niveau, on a une loi empirique des grands nombres.
Si on veut que les simulations s’inscrivent dans une progression de la pensée, il faut en garder des traces : celle de la question posée, de la simulation mise en œuvre, de la description des résultats. A ce propos, la pratique de la simulation est très adaptée pour apprendre à élaborer et interpréter des représentations graphiques, à travailler sur la moyenne, la médiane, l’intervalle interquartile ; on peut imaginer que l’entraînement à la description de données non simulées relève essentiellement des autres disciplines (SES, biologie, physique, géographie).
Pour pratiquer la simulation, il faut établir un protocole expérimental dans lequel on fixe la taille de la simulation. Par exemple, pour le lancer de deux dés, on peut envisager que des binômes d’élèves simulent chacun sur tableur 100 (ou 1000) valeurs de la somme des faces : chaque binôme peut fournir à la classe ses résultats (distribution des fréquences des nombres de 2 à 12), ce qui rend apparente la fluctuation d’échantillonnage. Les données sont ensuite mutualisées, ce qui affine l’estimation qu’on peut proposer de la loi de probabilité. Dans cette situation, la loi de probabilité étant calculable, on pourra le faire dans un second temps et cela permettra d’observer la qualité des estimations faites à partir des simulations.
De nombreuses activités mathématiques en collège peuvent utiliser des simulations de diverses situations ; on en trouvera quelques exemples sur le site statistix, à la rubrique collège et notamment un jeu de l’oie et un modèle de propagation de rumeur.
Les graphiques tels ceux du paragraphe 2.1 permettent de faire connaissance avec une loi expérimentale de convergence des fréquences vers les probabilités.
Mais comment « comprendre » qu’un processus sans mémoire (lancers successifs d’un dé ou d’une pièce) « converge », donc qu’à long terme, il y ait compensation relative (i.e. au niveau des fréquences) ? Ce phénomène est pour l’intuition paradoxal.
L’explication de cette loi empirique est un théorème qui porte aussi le nom de loi des grands nombres : dans le cadre strict de la théorie des probabilités, ce théorème montre que les fréquences convergent presque sûrement vers les probabilités correspondantes. Il convient de dire aux élèves qu’un tel théorème existe et on peut se contenter de dire que les fréquences convergent vers les probabilités, la notion de convergence presque sûre n’étant ici pas mentionnée [6].
Il est important dans la formation des élèves à ce niveau de faire l’expérience de ce tempo d’une démarche scientifique : l’explication d’une loi empirique réside non dans des arguments interprétatifs, mais dans la démonstration d’un théorème.
On notera que l’expérience et le théorème cité concernent l’évolution temporelle d’un processus : on fait une expérience, puis deux,… puis n, …, et on regarde comment évolue la distribution des fréquences.
Dans le même mouvement que précédemment, c’est-à-dire en passant d’une loi empirique à un théorème mathématique, on peut compléter ce qui a été dit par une vision qui mélange le spatial (expériences en parallèle) et le temporel : on mène en parallèle N séries de n simulations et on observe la fluctuation entre les N distributions de fréquences.
On se limite ici à une expérience à deux issues, codées 0 et 1, la probabilité sur {0,1} étant alors complètement déterminée par la probabilité de 1, que nous noterons p. Les graphiques ci-dessous sont faits avec p=0,4 , N=1000 et n=100 et 10000. On observe (c’est l’occasion de bien lire les échelles des représentations graphiques !) que « la plupart » des 1000 données sont dans [0,3 ;0,5] pour n=100, et dans [0,39 ;0,41] pour n=10000. D’autres simulations permettent de dégager une loi empirique sous une forme vague : « pour des valeurs de p pas trop proches de 1 ou 0, environ 95% des fréquences calculées sur des échantillons de taille n sont dans l’intervalle
.
Cela permet de rendre plus concret un mode de convergence des fréquences vers les probabilités : pour tout intervalle centré en p et de longueur 2a, pour n suffisamment grand (ici
), environ 95% des données sont dans cet intervalle.


On pourra alors énoncer une application du théorème central limite qui explique cette loi empirique, à savoir :
Proposition :
La probabilité que la fréquence calculée sur un échantillon de taille n soit dans, où
désigne le quantile d’ordre 0,975 de la loi normale centrée réduite (
≈1,96), tend vers 0,95 quand n tend vers l’infini.
L’utilisation pratique peut être obtenue en majorant
par 2 et
par
, en « cadrant
» et en déterminant alors numériquement des valeurs de
pour lesquelles la limite est atteinte à une précision de 0,01. D’où :
Proposition :
Pour p ∈ [0,2 ; 0,8] et n>50, pour des échantillons de taille n, la probabilité que la fréquence soit dansest approximativement 0,95 c’est-à-dire :
Pour
fixé, l’intervalle
est appelé intervalle de dispersion, ou de fluctuation de
, au niveau 0,95.
Si
est dans un intervalle centré en p de longueur 2a alors p est dans un intervalle centré en
et de même longueur 2a . Donc, si on ne connaît pas p mais qu’on cherche à l’estimer par
, on pourra dire que l’intervalle aléatoire
a une probabilité 0,95 de le contenir. Cet intervalle s’appelle intervalle de confiance de p (ou fourchette dans le cas d’un sondage) au niveau 0,95. On peut aussi dire qu’en estimant p par
la précision est
avec une probabilité 0,95.
On peut voir cet intervalle de confiance sous deux angles :
sont « compatibles » avec les données, au sens où l’intervalle de fluctuation associé à de tels
contiendra p [7].
Un exemple : la parité, c’est quoi ?
Deux entreprises A et B recrutent dans un bassin d’emploi où il y a autant de femmes que d’hommes, avec la contrainte du respect de la parité. Dans l’entreprise A, il y a 100 employés dont 43 femmes ; dans l’entreprise B, il y a 2500 employés dont 1150 femmes (soit 46%). Or 46% est plus proche de 50% que 43% : les chiffres parlent d’eux-mêmes, pourrait-on dire, et l’entreprise B respecte mieux la parité que l’entreprise A. Si on admet que la parité, c’est exactement 50% de femmes, il est vrai que B en est plus proche que A. Mais une telle définition, à l’unité près, de la parité n’aurait ici pas de sens.
La parité, cela signifie que l’identité sexuelle n’intervient pas au niveau du recrutement, que ce soit directement ou indirectement à travers des paramètres qui y seraient liés. Cela signifie donc qu’au niveau de la variable identité sexuelle, les résultats observés pourraient être obtenus par choix au hasard des individus dans la population. Dans ce cas, d’après ce qu’on vient de voir, on a une probabilité 0,95 que :
La proposition ci-dessus indique qu’il est difficile de comparer des pourcentages sans connaître les tailles des séries de données en jeu. Ainsi, dans une expérience de Bernoulli, observer 42% de 1 pour n=100 n’est pas « exceptionnel » ; observer 48% de 1 pour n=10 000 sera jugé exceptionnel, bien que 48%>42% . La statistique fait grand usage de ce genre de considérations.
On pourra bien sûr travailler sur des exemples ne relevant pas d’une expérience de Bernoulli.
La notion de probabilité conditionnelle peut être introduite en traitant d’abord des calculs de fréquences.
Par exemple on lance trois dés ; parmi les lancers dont la somme est 12, quelle proportion de lancers contiennent le nombre 2 ? Le calcul sur des données simulées consistera à diviser la fréquence des triplets contenant un 2 et de somme 12 par la fréquence des triplets de somme 12.
Le passage à la définition de « la probabilité d’avoir un 2 sachant que la somme est 12 » comme quotient de deux probabilités est plus compréhensible que si une telle définition est posée ex nihilo.
On pourra admettre les deux notations P(A et B) et P(A ∩ B) ; de même on pourra employer indifféremment P(A ou B) et P(A ∪ B) : l’enseignement des probabilités doit se prémunir d’une tendance à une rhétorique superflue.
Au niveau du lycée, on pourrait utiliser indifféremment distributions ou lois de probabilité.
Avec les lancers successifs de dés, on a un processus sans mémoire. Quelques processus avec mémoire simples peuvent ensuite être abordés, notamment les chaînes de Markov.
Les thèmes introduits ci-dessus pourront guider les enseignants actuellement en poste pour compléter leur formation dans le champ des « proba-stats » et éclairer leur réflexion sur les enjeux de leur enseignement. On pourra alors plus facilement tenir des débats pédagogiques sans que la crainte de l’inconnu prenne la place de l’argumentation.
Les pistes indiquées permettent de traiter une grande partie de la statistique abordable dans l’enseignement obligatoire secondaire. La formation en statistique nécessite d’être complétée :
La statistique, vue comme un mode de pensée, se développe dans la durée, ce qui impose d’étaler son enseignement sur l’ensemble de la scolarité obligatoire. L’enjeu pour les professeurs actuellement en poste est de former une nouvelle génération d’hommes et de femmes qui, partageant une culture commune de l’aléatoire, pourront plus facilement prendre une part active aux débats démocratiques.
La formation en statistique a donc vocation à s’adresser à tous les élèves, des voies générale, technologique et professionnelle, tant, comme nous l’avons dit, pour être en mesure d’exercer leur citoyenneté que pour d’éventuelles applications professionnelles, et cela dans tous les domaines (industriel, tertiaire, économique, social, médical, agronomique etc.). La statistique fait aujourd’hui partie du corpus de connaissances indispensables à tous et que l’école obligatoire se doit d’enseigner.
notes
[1] On ne peut pas tout faire : il s’agit ici d’un choix et non d’un jugement de valeur.
[2] Il s’agit d’une enquête « micro-trottoir ».
[3] Il convient de respecter ces premières intuitions, et en particulier de ne pas se lancer, sous prétexte de tester les connaissances a priori des élèves, dans des questions pièges du type :
Il y a 4 boules dans une urne, dont 3 blanches et une noire. Tu en tires une au hasard, quelle couleur paries-tu ?
Il faudra en effet longtemps (et beaucoup de tirages réels ou simulés) pour comprendre la nature du concept de prévision ou de pari (assorti d’un calcul de risque d’erreur ou d’espérance de gain), qu’on peut mettre à l’œuvre dans ce domaine : poser la question trop tôt est de nature à perturber l’intuition juste que le hasard est lié à l’imprévisibilité !
[4] Comprendre ce que signifie une formule est un enjeu important de l’enseignement des maths !
[5] Rappelons que tant que l’aléatoire n’est pas inscrit comme champ scientifique à travailler à l’école, et tant qu’on n’a pas la preuve que cela a été effectivement abordé par les élèves, le collège devra prendre en charge, en les adaptant, des travaux sur les lancers de dés matériels : on ne peut pas court-circuiter cette étape et passer directement à la simulation.
[6] L’ensemble des « trajectoires », c’est-à-dire les « listes infinies » de résultats qui ne réalisent pas cette convergence est de probabilité nulle, mais cette notion est trop difficile pour l’enseignement secondaire. Pour autant, il est souhaitable de ne pas insister sur un aspect propre aux probabilités sur un ensemble fini, à savoir qu’une issue de probabilité nulle est « impossible ».
[7] Ayant observé une valeur
=0,7 de la fréquence des 1 pour n=100, on dira que
est l’intervalle de confiance de p au niveau de confiance 0,95. On évite de dire que cet intervalle a une probabilité 0,95 de contenir p, car, stricto sensu, cette phrase ne veut rien dire : p est ou n’est pas dans cet intervalle. D’où la terminologie « niveau de confiance ».
[8] Comme nous l’avons déjà dit, tout n’est pas à traiter en cours de mathématiques.
[9] La loi de Gauss justifie d’introduire la notion d’écart-type dont l’introduction en dehors de la connaissance de ces lois ne se justifie pas vraiment au lycée.
Documents associés à l'article
Réagir à cet article
À lire aussi ici