Les nouvelles technologies pour l’enseignement des mathématiques
Intégration des TICE dans l’enseignement des mathématiques

MathémaTICE, première revue en ligne destinée à promouvoir les TICE à travers l’enseignement des mathématiques.

La statistique à l’ère de la Big Data
Article mis en ligne le 11 septembre 2025

par Vincent Brault

De la statistique à l’IA (NDLR)

Pour un statisticien de métier, a fortiori s’il a accumulé une certaine expérience, il y a de quoi être agacé par l’explosion actuelle de l’IA. Pour ne donner que deux exemples, la reconnaissance de caractères, ou la détection de fraudes à la carte bancaire, se pratiquent de longue date par des méthodes statistiques éprouvées, que l’on n’a songé que récemment à qualifier d’IA. Comme le dit Saporta (2023) « Tout algorithme ou toute méthode statistique se retrouve qualifiée d’IA, le plus souvent abusivement ». Des exposés sur les réseaux de neurones (le moteur théorique principal de l’IA), on en suivait dans les congrès de statistique dès les années 1980, parallèlement au développement de beaucoup d’autres méthodes de traitement de données. Doit-on pour autant nier la révolution à laquelle nous assistons depuis bientôt trois ans ? Allons-nous nous ridiculiser en chantant à tue-tête l’antienne du « rien de nouveau sous le soleil » ?

Vincent Brault est idéalement placé pour éclaircir le débat. Statisticien de formation, sa spécialité de recherche l’a amené à développer des méthodes de traitement des gros ensembles de données, en franglais les Big Data. Maître de conférences à l’IUT2 Grenoble dans le département Science des Données, il a été un des artisans de la création du Bachelor Universitaire de Technologie — Science des Données, et il est à l’origine du programme national sur les méthodes statistiques pour le Big Data. Il est donc à même d’appréhender la révolution de l’IA du point de vue informatique autant que statistique. De plus en tant qu’enseignant, il est confronté comme beaucoup, aux défis pédagogiques de l’utilisation de l’IA par ses étudiants, et il a bien l’intention de les relever.

Il aborde chacune de ses trois compétences, en autant d’articles qu’il présente à MathémaTICE.

  • Allons nous finir dans le film Matrix ?

    Pour tenter de dépasser les discours vainement alarmistes sur les dangers de l’IA, il faut comprendre quels sont les enjeux, quels sont les risques et d’où ils proviennent. Au travers de quelques exemples particulièrement parlants, Vincent Brault explique pourquoi les algorithmes de l’IA pourront toujours induire certains effets indésirables (voir)
  • La statistique à l’ère de la Big Data (celui-ci)

    Il est vain de prétendre que la statistique du siècle dernier est capable de traiter, sans autre évolution, les énormes ensembles de données générés actuellement. Vincent Brault explique, au travers de quelques exemples, quels sont les écueils et comment les méthodes statistiques doivent s’adapter pour y pallier. Convenablement aménagées, elles s’avèrent tout aussi efficaces, et moins énergivores que les Grands Modèles de Langages (LLM) de l’IA.

La statistique à l’ère de la Big Data

En tant qu’étudiant en statistique, à la question « combien faut-il de données ? », j’avais l’habitude d’entendre répondre « le plus possible ». Eh bien nous y sommes, nous avons maintenant plus de données que nous ne pouvons en traiter. Dans ce cadre, nous devrions être satisfait·e·s et pourtant, ce n’est pas le cas. Un biologiste résumait bien ce dilemme avec cette phrase « Vous [les statisticien·ne·s] n’êtes jamais contents : avant, nous n’avions pas assez de données et les résultats obtenus n’étaient pas souvent concluants ; maintenant, nous en avons trop et nous ne pouvons pas avoir de résultats dans des temps corrects ». Et puis, en plein boom de l’IA, est-ce que la statistique a encore sa place quand les réseaux de neurones peuvent rapidement donner des décisions ?

Depuis 2016, il existait une licence professionnelle Big Data à l’IUT2 de Grenoble et, lors de la refonte des programmes des DUT en BUT [1], le parcours Science des Données (ex-STID) saisit l’occasion d’introduire un cours de 20h sur la méthode statistique pour le Big Data. Dans cet article [2], nous développerons les limites des méthodes usuelles et présenterons les avantages d’avoir un background statistique pour répondre aux enjeux du Big Data sans aller directement dans l’utilisation massive de réseaux de neurones.

Le Big Data, c’est comme le sexe chez les adolescents

En 2013, Dan Ariely, professeur de psychologie et d’économie comportementale israélo-américain qui enseignait à l’Université Duke, disait « Le Big Data, c’est comme le sexe chez les adolescents : tout le monde en parle, personne ne sait vraiment comment faire, tout le monde pense que tout le monde le fait, donc tout le monde prétend le faire ». et un ou une anonyme ajoutait « Les seuls qui en ont vraiment fait n’en parlent pas car cela ne s’est généralement pas très bien passé ». Alors pourquoi est-ce si compliqué d’appréhender la statistique dans un cas où il y a énormément de données ? Déjà, certaines méthodes classiques peuvent manquer d’intérêt. Par exemple, dans le graphique de la Figure 1, nous pouvons observer des distributions de variables aléatoires.

À gauche, nous avons une différence subtile dans la moyenne mais énormément d’observations tandis qu’à droite, nous avons les mêmes lois. Si nous demandons à une personne dans quel cas un test conserve l’égalité des moyennes, sans préciser la taille des échantillons, il y a de fortes chances pour qu’ils disent que ce soit la figure de gauche alors que c’est la figure de droite. Lorsqu’il y a beaucoup d’observations, une infime variation suffit pour être détectée et comme tout test est basé sur des modélisations, la question se pose de savoir si nous testons réellement l’hypothèse ou la modélisation. Bien sûr, il existe maintenant des adaptations des tests pour prendre en compte ce problème mais le problème est là : on ne fait pas de la statistique en Big Data comme on l’enseigne classiquement. Autre exemple, les intervalles de confiance sont ridiculement petits et finissent par passer en dessous de l’approximation numérique de nos ordinateurs. Ou encore, lorsqu’il y a trop de variables, le modèle linéaire ne s’inverse plus et il faut passer aux méthodes LASSO ( Least Absolute Shrinkage and Selection Operator )

Bon, ce n’est pas grave, on va commencer par une méthode classique comme une Analyse en Composantes Principales comme on nous a appris ; mais double problème : nous n’avons pas que des données quantitatives et surtout, le temps de calcul est trop lourd pour notre ordinateur car nous avons 10 milliards d’observations et même si nous avions accès au supercalculateur Frontier  [3], cela prendrait déjà plusieurs minutes (voir le Tableau 1).

Tant pis, nous allons déjà calculer la moyenne d’une variable, c’est la base une moyenne. Il faut juste ajouter les chiffres et diviser par le nombre. Sauf que, pas de chance, les données sont stockées sur plusieurs serveurs (voir un exemple schématique sur la Figure 2) et impossible de les ramener sur son ordinateur sinon, on n’aurait pas eu besoin de plusieurs serveurs. Et même si nous réussissons à tout ramener, en cherchant à additionner trop de nombres, à un moment, la somme ne prendra plus en compte les petits nombres devant la somme déjà accumulée [4], mais s’il en reste énormément, nous aurons un biais.

Alors, on abandonne ? Pas si on maîtrise la statistique

Devant tous ces problèmes, une personne qui n’aurait que des connaissances superficielles de la statistique pourrait laisser tomber. Mais un·e élève avec un bagage solide en statistique comprend que ces obstacles sont loin d’être infranchissables.

Par exemple, pour les données sur plusieurs serveurs, si on peut faire des calculs de base sur ces derniers, il suffit de demander les sommes des valeurs à chaque serveur et leur nombre pour pouvoir reconstruire la formule (voir la section 2.1 de [b] pour un calcul détaillé). On veut une application qui renvoie les moyennes entre deux instants quelconques parmi des milliards ? On stocke les sommes cumulées des observations plutôt que les observations en elles-mêmes et le calcul devient instantané quels que soient les paramètres à calculer (voir la section 2.3.3 de [b]).

Les différentes variables ne sont pas de même type et nous avons besoin de calculer des distances ? On en crée de nouvelles qui prennent en compte les variables qualitatives.

Sortir du cadre pour aller plus loin

La difficulté du cours de Méthodes Statistiques pour le Big Data est qu’il faut oublier les automatismes appris dans les cours précédents, pour chercher à aller plus loin ; un peu comme quand on rencontre pour la première fois cet exercice avec trois rangés de trois points alignés et qu’il faut passer par tous les points à l’aide de 4 segments droits sans lever le crayon (voir la Figure 3).

Un exemple que j’aime faire en TD est le calcul d’une moyenne sur un très grand échantillon. D’abord, nous simulons 10 millions d’observations d’une loi gaussienne centrée réduite et nous regardons si la moyenne est proche ou non de zéro. Normalement, la loi forte des grands nombres nous garantit que c’est le cas. Et puis, je leur demande d’enlever progressivement des décimales et de voir ce qu’on perd en précision. Normalement, pour une moyenne, la perte est négligeable même si nous prenons des valeurs entières. Mais si nous n’avons besoin que des valeurs entières, elles sont, sauf cas très exceptionnel, toutes comprises entre −10 et +10. Alors, pourquoi ne pas stocker les résultats dans l’ordre (tri à plat) ? Cela permet de ne conserver que les effectifs de chaque modalité. Quand il y a peu de modalités différentes, le gain peut être très important. Dans le langage R, on passe d’un stockage d’environ 763 Mb à moins de 1 Mb [5]. Et si on veut parler vitesse, il est beaucoup plus long d’additionner 10 millions de valeurs que d’appliquer la formule de la moyenne sur un tri à plat (qui consiste alors en une vingtaine d’opérations seulement).

Le cours sur le Big Data devient ainsi une chance d’aborder tout ce qui a été vu dans les cinq précédents semestres et de tout remettre en question.

Une partie très importante est la problématique des valeurs manquantes. Pendant longtemps, on a remplacé ces dernières par la moyenne dans le cas de variables quantitatives. Comme l’explique très bien Vincent Audigier dans sa thèse (voir [c] et la Figure 4), s’il existe une relation entre deux variables et que nous manquons d’informations sur l’une d’elles, le fait de remplacer par la moyenne va venir casser cette relation (voir les points rouges sur la Figure 4). Lorsque nous avons énormément de données, il y a de fortes chances qu’il y en ait des manquantes. Une bonne maîtrise de la statistique permet de comprendre, suivant les objectifs et le type de données manquantes, s’il est nécessaire d’imputer ces dernières (c’est-à-dire d’affecter des valeurs artificielles à la place de celles qui manquent) et, si oui, comment trouver la méthode qui biaisera le moins les résultats.

La statistique dans le monde d’après

Enfin, posons-nous quelques minutes. La principale remarque qu’on a tendance à m’opposer est la nécessité de faire tout ce travail alors qu’il suffit de prendre des serveurs plus gros ou d’utiliser des machines plus puissantes. Il est vrai que nous avons pris l’habitude, lorsqu’un problème est trop coûteux en temps ou stockage, d’acheter des plus gros serveurs et/ou d’utiliser un plus gros algorithme pour le résoudre. Pour ma part, et c’est une sensation très personnelle et peut-être défaitiste, je crois que la (sur)consommation de tous ces data centers va certainement poser un problème à terme dans un monde aux ressources finies. Alors bien sûr que nous allons peut-être trouver une solution pour qu’ils consomment moins mais, pour le moment, la tendance est plutôt à l’inverse (voir la Figure 5).

Dans ce cadre, les statisticien·ne·s ont, d’après moi, le devoir de proposer des solutions moins gourmandes en énergie afin que, si cela devient invivable un jour, nous puissions continuer à utiliser algorithmes performants même si nous n’avons plus accès comme avant aux data centers.

Bibliographie

[a] V. Brault, « Appréhender les méthodes statistiques pour le Big Data en BUT3 Science des données », chez CFIES2024 : HUITIEME COLLOQUE FRANCOPHONE INTERNATIONAL SUR L’ENSEIGNEMENT DE LA STATISTIQUE, Nice, 2024.
[b] V. Brault, « Polycopié de la ressources R6.02 - Méthodes statistiques pour le Big Data dans le cadre de la formation SD Grenoble », 2024.
[c] V. Audigier, Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les, Rennes : Agrocampus Ouest, 2015.
[d] T. Gaudiaut, La consommation électrique des data centers rivalise avec celle des grandes économies mondiales, Statistica, 2025.
[e] A. Beky, « Supercalculateurs : les 10 systèmes les plus puissants en 2023 », 2023.