Mathématice, intégration des Tice dans l'enseignement des mathématiques  
Sommaire > N°10 - Mai 2008 > Les mystères statistiques du portail des (...)

Les mystères statistiques du portail des IREMs
Une opération de « com. »
Moteur de recherche
Mis en ligne le 28 mai 2008, par Claudine Schwartz

L’article qui suit pose (avec un humour certain) un problème d’envergure : quelle confiance accorder aux statistiques de visites produites à foison par chaque site Internet ? La question s’est imposée à Claudine Schwartz, responsable du site Statistix , lors d’une visite de routine du portail des IREMs : certaines données affichées sont-elles vraisemblables à défaut d’être raisonnables… La réflexion comparée menée à partir des deux sites (Portail des IREMs et Statistix) peut et doit être élargie : combien y a-t-il de « vrais visiteurs » et comment les statistiques des sites en rendent-elles compte ? Au-delà de ces questions, l’article invite à fréquenter les deux sites dont Mathematice a déjà rendu compte (voyez http://revue.sesamath.net/spip.php?article62 et http://revue.sesamath.net/spip.php?article85)

Le 2 avril 2008, à 12H29, voguant tranquillement sur le site « le portail des IREMs » j’ai ouvert la rubrique statistique.

Comme je n’avais pas mes lunettes, j’ai vu à peu près ça :

C’est flou, mais on devine qu’il s’agit de données classées selon les heures (histogramme à 24 barres), les jours de la semaine (7 barres), les mois de l’année (12 barres).

Ah, mais voilà des « données réelles » (i.e. ici ni simulées, ni inventées - je ne sais pas définir une notion générale de données réelles). Sûrement, je vais trouver une activité à faire en classe avec ces données à la fois simples à appréhender et réelles (non, je ne sais pas non plus définir simples)…

Vais-je me précipiter sur des tests du chi-deux pour voir si les répartitions sont uniformes, sous prétexte que c’est presque au programme de mathématiques de terminale ? Même en voyant flou, il est clair qu’il y a trop de données pour faire des simulations ; de plus, le test du chi-deux rejettera l’hypothèse d’équirépartition : le moindre écart ridicule à cette équirépartition, avec autant de données, fait dérailler le chi-deux vers des grandes valeurs.
Pour preuve, le chi-deux vaut environ 60 000 pour le classement par heure. Et, pour vous donner une idée sans « en venir aux tables », juste en faisant du calcul mental : une loi du chi-deux à n ddl a comme espérance n , comme écart-type $\sqrt n$ ; c’est la loi du carré de la somme de n variables aléatoires indépendantes de même loi normale centrée réduite ; pour n = 23 d’après le théorème central limite, on peut approximer par une loi normale et donc environ 99% des valeurs sont entre [n – 3$\sqrt{2n}$ ; n + 3$\sqrt{2n}$] $\approx$ [2 ; 44] : on est ici très en dehors !

Et puis, pourquoi tester l’équirépartition : on se doute que le site est plus visité le jour que la nuit ! Donc, pas de chi-deux en aveugle, je vais plutôt mettre des lunettes et observer les données :

L’ampleur de la fréquentation du site : entre environ 150 000 et 200 000 pages vues par mois depuis l’ouverture en 2002 - ça fait rêver. Moi qui regarde régulièrement les statistiques du site Statistix…on en est très loin ; je dirais pudiquement qu’il faut aller jusqu’à envisager une échelle logarithmique si on veut les représenter sur le même graphique. Oh, mais le site Statistix est plus jeune, tous les espoirs sont permis.

Je ne suis pas surprise que le maximum de pages vues du site des IREMs soit entre 11h et 12heures. D’ailleurs, je suis arrivée sur le site vers 12H 05, à peine un peu en retard. Quand les chiffres sont conformes aux idées a priori, on se sent à la fois bon analyste, un peu devin et favorable aux chiffres.

Mais venons-en au vrai problème : les passages nocturnes ! Ce pic entre 3h et 4h du matin, est-il bien raisonnable de l’affecter aux professeurs de mathématiques ?
Qui, entre 1h et 5h du matin, visite le fond bleu nuit du portail des IREMs ?

Voyons si les autres graphiques entrevus sont aussi déroutants. Ci-dessous le classement selon les jours de la semaine ; ouf, un pic le mercredi, on peut justifier. Le mercredi, les enseignants ont plus le temps de se documenter (même la nuit entre 3h et 4h ?).
Observez au passage que les professeurs ne relâchent pas la pression le week-end. Car vous l’avez compris, je fais l’hypothèse que les visiteurs des pages web de ce site sont majoritairement des professeurs de mathématiques.

Le graphique ci-dessous selon les mois réserve une surprise et une non-surprise. Commençons par la non-surprise : la baisse l’été. Non que les professeurs travaillent moins, mais ils ont peu accès à Internet, leurs enfants ne leur laissent pas la place devant l’ordinateur. Si cette interprétation ne vous convient pas, alors disons que les plages et les sommets montagneux sont mal équipés par un gouvernement inattentif à nos besoins, n’allons pas plus loin, pas de politique ici. Passons à la surprise, qui bien évidemment vous a sauté aux yeux en regardant cet histogramme.

La surprise, c’est le mois de février : 490 000 visites.
Plus court que les autres mois, février arrive en second, après le mois d’octobre. Dépassement trop marqué pour une fluctuation d’échantillonnage. Et pourtant, même en février, il n’y a qu’un mercredi (jour d’affluence) par semaine

Avant d’aller plus avant sur ces deux questions : fréquentation la nuit et en février, revenons à l’entête de la page web citée, que j’avais zappée.

Nous avons reçu 4260433 pages vues depuis Juin 2002, 2134 aujourd’hui, et 5394 hier.

Le meilleur jour est Mercredi 01 Février 2006 (53283 pages vues), alors que Mardi 25 Juin 2002 (1 pages vues) est un jour calme.

Le meilleur jour en nombre de visiteurs est Mercredi avec un total de 725646 pages vues, alors que Lundi n’est pas notre meilleur jour avec seulement un total de 559621 pages vues. En moyenne, notre meilleure heure de passage (avec 218924 pages vues) est à 11 heure(s), alors que nos lecteurs les plus assidus semblent s’être endormis vers 1 heure(s) (avec seulement 140232 pages vues).

Environ 4 millions de pages vues, ça j’avais vu. Je ne referai pas le couplet de la différence par rapport au site Statistix, allez visiter ce site directement pour vous faire une opinion personnelle.

La notification des extrêmes de ces statistiques est amusante : le mardi 25 juin 2002 est un jour calme avec une unique page vue (mais qui était-ce donc le visiteur distingué de cette page là ?). Ce jour là, en France, Renaud Dutreil, secrétaire d’état, lance l’opération interministérielle vacances 2002 et dans le monde, je n’ai pas souvenir d’évènements qui justifierait un visiteur unique. On peut envisager des explications simples : le mardi 25 juin est un jour proche de l’ouverture du site, ou un jour de panne du serveur qui l’abrite ; les systèmes informatiques ont des faiblesses parfaitement aléatoires. C’est arrivé, même pour le site Statistix.

Par contre 53 283 pages vues le 1 février 2006 ! Là, je suis en panne d’imagination. Evidemment, ce seul jour gonfle encore la statistique du mercredi et celle du mois de février qui sans cette journée passe derrière le mois de mars.
Que s’est-il passé le mercredi 1 février 2006 ?

Avant de vous laisser faire des investigations sur cette question, un dernier tableau :

Et bien, j’aurais pu regarder ce tableau tout de suite. Visiblement, il faut revoir l’hypothèse que l’essentiel des visiteurs sont des professeurs de mathématiques. Il n’est ni raisonnable ni pédagogiquement correct de penser qu’ils sont nombreux à avoir des systèmes d’exploitation inconnus. Quelles sortes d’extra-terrestres sont les visiteurs dont les systèmes d’exploitation sont inconnus ? Extra-terrestres, humanoɯdes, ou plus simplement visiteurs virtuels ?

Et c’est ainsi que j’ai redécouvert les robots qui référencent les sites et qui travaillent, jour et nuit, tous les jours de l’année. Ce sont eux, paraît-il, qui composent la majorité des visiteurs des sites ayant une certaine notoriété. On ne sait pas grand-chose sur le pourcentage des pages qu’ils voient ! Les statistiques nocturnes n’ont plus rien d’étonnant et l’affluence le mercredi 01 février 2006 peut être due à une erreur de programmes visiteurs.
Il est clair qu’il convient d’éviter le glissement sémantique page vue = page lue. Jusqu’à nouvel ordre, les robots référenceurs ne lisent pas. On retrouve là une des problématiques de l’usage d’internet : comment choisir, parmi la masse de ce qui est vu, ce qu’on va lire ? Comment faire en sorte que les élèves fassent des choix conscients ?

En guise de conclusion

- Les nombres des pages vues peuvent être considérés comme un indice de notoriété du site des IREMs, mais il est difficile de les interpréter en termes de pages « vues » au sens commun de ce terme ; il ne s’agit finalement pas de données simples !
On pourra consulter sur le sujet :
http://www.mrunix.net/webalizer/simpleton.html

- Il y a mystère et mystère. Il y a des myriades des petits mystères plus ou moins volatils que nous croisons à longueur d’année, le mercredi 1 février était un de ceux là.
Il y a aussi les grands mystères, durables ; en voici un.
Je vous ai dit que le test du chi-deux n’est pas très adapté pour des séries de grande taille. Mais je connais une série, particulièrement mystérieuse, et qui met en défaut cette règle. C’est d’ailleurs la plus grande que je connaisse ; il s’agit des 200 premiers milliards de décimales de $\pi$ :

Le chi-deux vaut 8, 1. On peut même le réécrire, comme les mots de passe qu’on vous demande d’écrire deux fois pour contrôler les erreurs de frappe :
Le chi-deux, sur 200 milliards de chiffres, vaut 8,1.

Cet article est aussi une opération de com.

- Si vous accédez à cet article sur le site des IREMs, c’est une pub pour le site Statistix, avec le portail des IREMs dans le rôle d’appât.
- Si vous êtes sur le site Statistix, c’est une opération de com. pour le portail des IREMs, avec la statistique comme appât.
- Si vous y arrivez par Mathematice, c’est une invitation à voir (ou revoir) deux sites dont la revue en ligne de Sesamath a parlé à diverses reprises (Statistix, Publirem).

Rien ne vous empêche de fréquenter les trois sites et de les mettre parmi vos favoris.

N’hésitez pas à envoyer vos mystères statistiques, petits ou grands à :
contact@statistix.fr

Et peut-être pourrez-vous gagner un ordinateur avec de tels mystères, dans le cadre du concours : http://www.statistix.fr/spip/spip.php?article37.


Réagir à cet article
Vous souhaitez compléter cet article pour un numéro futur, réagir à son contenu, demander des précisions à l'auteur ou au comité de rédaction...
À lire aussi ici
MathémaTICE est un projet
en collaboration avec
Suivre la vie du site Flux RSS 2.0  |  Espace de rédaction  |  Nous contacter  |  Site réalisé avec: SPIP  |  N° ISSN 2109-9197