Une réflexion sur la façon dont la presse utilise les statistiques...
Par l’un des auteurs du site Statistix http://www.statistix.fr/
Définir et interpréter des indicateurs de l’efficacité des établissements vis-à-vis de la préparation au baccalauréat est une question complexe dont des réponses sont progressivement élaborées, en confrontant le travail des équipes institutionnelles impliquées et la manière dont les acteurs (enseignants et responsables d’établissements notamment) et les medias s’en empareront. Nous proposons ci-dessous une réflexion d’ordre technique, inspirée par l’usage qu’a eu la presse des d’indicateurs relatifs aux lycées et publiés par la DEPP (direction de l’évaluation et de la prospective et de la performance du ministère de l’éducation nationale).
Dans leurs numéros du 9 au 15 avril, le Nouvel Observateur et l’Express se sont penchés sur les lycées ; les gros titres des premières de couverture étaient respectivement :
- spécial 36 pages sur « les lycées au banc d’essai, le meilleur pour votre enfant en 2009 » (le nouvel observateur)
- le classement 2009 « lycée publics et privés » (l’express).
Le Figaro publie aussi son classement, d’autres journaux le font aussi.
Ces journaux ont pris appui sur les chiffres et indicateurs publiés par le ministère de l’éducation nationale :
http://www.education.gouv.fr/cid3014/indicateurs-de-resultats-des-lycees.html
Sans revenir sur ce type de dossiers dont certains journaux se font une spécialité (classement ou note donnés aux lycées ou aux hôpitaux), regardons d’un peu plus près la construction des indicateurs définis par le ministère et utilisés dans la presse. Trois taux sont considérés :
- le taux de reçus au bac,
- le « taux d’accès au baccalauréat » qui donne la proportion des élèves de seconde de lycée général ou de première année de baccalauréat professionnel qui obtiennent leur bac en faisant toute leur scolarité dans l’établissement,
- le « taux de sortants bacheliers » qui donne la proportion qu’un élève qui quitte l’établissement le fasse en ayant obtenu le baccalauréat.
Pour chacun de ces taux, on distingue un taux brut et une « valeur attendue ». En ne considérant que le premier taux, celui des candidats qui sont reçus au baccalauréat, et en simplifiant la situation, nous allons montrer en quoi les indicateurs ministériels, s’ils prennent tout leur sens au niveau du pilotage d’un établissement, ne sont pas pertinents pour avoir une vision macroscopique de l’ensemble des établissements, et en particulier ne peuvent pas servir pour des objectifs de comparaison des lycées.
Les établissements sont répartis selon la typologie suivante :
- lycée d’enseignement général ;
- lycée polyvalent à dominante tertiaire ;
- lycée polyvalent à dominante industrielle ;
- lycée technologique à dominante tertiaire ;
- lycée technologique à dominante industrielle.
Pour un établissement donné, le taux brut de reçus au baccalauréat est le quotient du nombre des reçus par le nombre d’élèves s’étant présentés à l’examen. Ce nombre est utile à des fins de gestion du nombre de redoublants, il est analysé par certains parents comme un indicateur socio-démographique de la population des élèves de l’établissement : un établissement qui a 99,8% de réussite au bac général ne travaille pas avec la même population d’élèves que celui qui aurait 60% de reçus.
Le ministère a défini une partition de la population des candidats à partir de variables, renseignées pour chaque candidat et corrélées avec les résultats ; ce sont pour les lycées d’enseignement général :
- la section dans laquelle se présente le candidat (L,ES, S),
- le sexe
- l’âge (18ans au plus, 19 ans, 20 ans ou plus)
- la catégorie sociale (regroupement en 4 classes : défavorisée, favorisée, moyenne, très favorisée)
- les résultats au DNB (diplôme national du brevet, passé en fin de troisième) classés en 3 catégorie (note >10, note entre 10 et 13, note ≥14).
On peut bien sûr discuter du bien fondé de cette partition en 3x2x3x4x3=216 classes pour chacun des types d’établissement considérés ; les promoteurs de ce travail sont tout à fait conscients des problèmes soulevés et nous ne nous y attardons pas ici. Nous allons plus simplement imaginer un seul type d’établissement et une partition en 4 groupes G1,G2,G3,G4 pour lesquels les taux de reçus au bac, calculés au niveau national, vont croissant.
L’exemple ci-dessous montre bien que le taux brut de reçus au baccalauréat n’est pas pertinent pour juger de l’efficacité de l’encadrement pédagogique de l’établissement : les deux établissements 1 et 2 décrits dans le tableau ont respectivement 64,5% et 72 ,15% de reçus et cependant, pour chacun des 4 groupes, le taux brut de reçus de l’établissement 1 est supérieur à celui de l’établissement 2 (tableau 1 et figure 1).
Tableau 1 : 30% des candidats de l’établissement 1 sont dans le groupe G1, le taux brut de reçus au bac dans cet établissement et pour ce groupe est de 0,5, donc sur 100 candidats il y en a 30 dans G1 qui fournissent 30x0,5=15 reçus. La somme de la colonne R1 donne le pourcentage brut de reçus.
Le taux brut exprimé en pourcentage, s’écrit :
Ce paradoxe apparent (dans chaque groupe, les taux de l’établissement 1 sont supérieurs à ceux de l’établissement 2 et cependant, les taux bruts sont dans l’ordre inverse) est bien connu des statisticiens (et souvent nommé effet de structure). Les taux sont en effet calculés sur des établissements dont les structures, décrites par les pourcentages de candidats dans chaque groupe, sont très différentes (figure 2))
Figure 2 : l’établissement 1 a des proportions plus fortes d’élèves dans les deux premiers groupes pour lesquels la réussite au bac est plus difficile.
Taux de réussite attendu
Le ministère a souhaité que chaque lycée puisse disposer d’un indice qui relie ses résultats à ceux d’établissements du même type, dans la même académie, ou dans la France entière. Pour cela, il a défini le taux de réussite attendu au baccalauréat. Pour le définir, nous allons introduire quelques notations, pour une partition de la population des candidats en n groupes.
F =( f 1,.., f n) est la distribution des fréquences des élèves dans l’établissement selon les n catégories définies . F décrit la structure de l’établissement.
Τ=( τ1,.., τn est le vecteur des taux de réussite par groupe dans l’établissement ( τ i est le quotient du nombre de reçus du groupe i par la taille de ce groupe).
Le taux brut TB de reçus s’écrit aussi comme la moyenne des composantes de T, pondérées par celles de F :
TB = ∑ fixτi
(Si les fréquences dans chaque groupe sont exprimées en pourcentages, on obtient un taux brut exprimé en pourcentage : voir le calcul de TB 1 dans la légende du tableau 1).
On veut interpréter ce taux en regard de ce qui se passe en France. Pour cela, on considère le vecteur T * =( τ 1*,.., τ n * ) des taux de réussite par groupes au niveau national ( τ i*est le quotient du nombre de reçus en France venant du groupe i , par la taille de ce groupe au niveau national).
Le taux attendu TA de reçus dans un établissement est le taux qu’on observerait si on lui appliquait, groupe par groupe, les taux de réussite nationaux :
TA = ∑fix τ i*
(voir un exemple de calcul dans la légende du tableau 2)
Si T B ≥ T A , on dit que l’établissement a une valeur ajoutée positive, sinon on dit qu’il a une valeur ajoutée négative ; la différence T B -T A ou le quotient ( T B - T A )/ T A sont des mesures de l’efficacité pédagogique du lycée, sous réserve qu’il y ait une certaine homogénéité entre les groupes des différents établissements ayant le même numéro [1].
Si on suppose que la répartition F d’un établissement est invariante (ou presque) sur plusieurs années, la considération de l’évolution de T B - T A ou de ( T B - T A )/ T A est informative pour l’analyse de l’efficacité de cet établissement - et devrait être assortie d’une étude plus fine sur l’évolution des différences des taux au niveau de chacun des groupes.
L’indicateur TA dépend de par sa construction même de la structure de la population de l’établissement, c’est-à-dire de la répartition F entre les différents groupes : il ne permet pas de comparer les valeurs ajoutées entre différents établissements, c’est-à-dire de comparer les mesures de l’efficacité de ceux-ci.
Si nous reprenons l’exemple des deux établissements précédents, on voit que les deux ont une valeur ajoutée positive (tableau 2).
Tableau 2. Avec un pourcentage national de 0,9, le nombre de reçus attendus dans le groupe 4 de l’établissement 2 est de 25x0,9=22,5. L’établissement 1 a une valeur ajoutée de 0,5%, l’établissement 2 bien qu’ayant un taux brut plus élevé a finalement une valeur ajoutée de 0,15%.
Le taux TB 2 attendu exprimé en pourcentage, s’écrit :
TB 2 = 15x0,5+30x0,6+30x0,8+25x0,9 = 7,5+18+24+22,5.
Le tableau 3 et la figure 4 illustrent le fait qu’une valeur ajoutée donnée (ici nulle) peut cacher des situations bien différentes. Et en particulier, avoir une valeur ajoutée nulle ne signifie pas que groupe par groupe, les résultats sont ceux de la France entière !
Tableau 3 : L’établissement 3 a un taux brut de reçus bien inférieur à celui de l’établissement 4 (68% versus 76%), les deux établissements ont une valeur ajoutée nulle et cependant cela cache des situations bien différentes ; l’établissement 3 a une valeur ajoutée positive pour les groupes G1 et G2 et négative pour les deux autres, c’est l’inverse pour l’établissement 4, mais il se trouve que dans les deux cas, il y a compensation au niveau des valeurs ajoutées.
Taux de réussite standardisé
Les taux attendus et leur différence avec les taux bruts ne pourraient servir à des fins de comparaison que pour des établissements ayant même structure, ce qui est rarement le cas. On ne peut en fait pas s’en servir pour une étude au niveau macroscopique (académie ou la France entière), comme cela est fait par l’Express et le nouvel observateur.
Si l’objectif est d’étudier à un niveau global l’efficacité pédagogique intrinsèque de plusieurs établissements, il convient de s’affranchir de la diversité de leur structure.
Pour cela, on va définir pour chaque établissement le taux standardisé défini à partir d’une structure de population commune pour tous les établissements, celle de la France entière par exemple (ou d’une académie).
Notons F* =( f1*,.. , fn*) la distribution des fréquences pour les n groupes en France.
Le taux standardisé TS de reçus est alors le taux de reçus calculé à partir des taux de l’établissement dans chaque groupe, appliqués à la distribution nationale ou académique de ces groupes :
TS= fi* x τ i
(voir un exemple de calcul dans la légende du tableau 3)
S’étant affranchis de la structure variable selon chaque établissement de la population, les taux standardisés peuvent être comparés d’un établissement à l’autre (avec toujours la même réserve sur l’homogénéité des groupes de même numéro d’un établissement à l’autre).
Tableau 3 : La différence des taux standardisés vaut TS1-TS2 = 1,3%. Pour mémoire, les taux bruts étaient TB1 = 64,5 et TB2=72,15.
Le taux standardisé TS1 exprimé en pourcentage s’écrit :
TS1 = 20x 0,5+35x0,59 +35x0,59+10x0,95 = 10+20,65+28,7+9,5 = 68,75%.
En guise de conclusion
L’idée de standardisation mise en œuvre ici n’est pas originale ; elle est notamment appliquée pour étudier la mortalité (globale ou pour une maladie donnée) dans différents pays : on compare les taux standardisés (suivant le continent ou la population mondiale [2]) par l’âge. Les taux de mortalité ainsi standardisés sont considérés comme des indicateurs du niveau de santé.
Pour un établissement donné, la comparaison d’un taux brut et d’un taux attendu est simple à comprendre ; néanmoins, avoir une valeur attendue négative pèse sur tout l’établissement et, en dehors d’une analyse plus fine qui permettrait de l’éclairer, cela peut contribuer à un décourager les enseignants sans pour autant avoir des effets positifs. Le taux standardisé ne peut plus être combiné (par exemple retranché) au taux brut de reçus, les deux taux sont « parallèles ».
Pour une vision globale des lycées d’une région, le taux standardisé est plus pertinent que les taux bruts et attendus -mais rien n’empêche de fournir les taux bruts et les taux standardisés, le taux brut donnant alors par rapport au taux standardisé un élément d’ information sur la structure de l’établissement.
Le classement du journal l’Express est basé sur le calcul, pour chaque établissement, de :
3xTB+2x(TB-TA)+2 C
où C est la différence entre les taux bruts et attendus du nombre d’élèves ayant fait leur classe de première et terminale dans l’établissement et ayant obtenu leur bac. Il n’est donné aucune justification sur le choix des coefficients autre que « c’est le classement général de l’express » ; cela semble bien arbitraire et le classement qui en découle n’est pour nous aucunement fondé.
Nous n’avons pas trouvé la formule magique du Figaro qui lui sert pour son classement. Il est cependant certain qu’il est basé sur les taux bruts et attendus et pas sur les taux standardisés.
Le nouvel observateur met les notes A,B,C suivant semble-t-il qu’il y a valeur ajoutée positive, nulle ou négative : il n’y a donc pas de tentative de classement, ce qui rend le dossier plus solide. Un grand tableau donne des taux bruts de réussite selon les sections puis toutes sections confondues, ainsi que le signe de la valeur ajoutée pour 2200 lycées. Aucun indice n’est indépendant des structures, choix qui suppose que les lecteurs ne compareront pas les lycées, ou qui devrait les en dissuader.
L’introduction en 2008 des résultats au DNB a rendu moins contestable qu’avant l’hypothèse d’homogénéité des groupes considérés dans les calculs de taux de réussite. Mais quels que soient les indicateurs, leurs lignes de forces et leurs limites, il est délicat de juger un établissement sur ses résultats pour une seule année. Retracer l’évolution des valeurs des indices sur quelques années et cerner une dynamique fournissent des éléments plus éclairants, tant pour une vision d’ensemble des établissements de même type que pour le pilotage d’un établissement particulier.