News & Insights > Insights > Le COVID & la data science

  •  By Hervé Mignot

Après la crise sanitaire, la crise prédictive ?

Co-auteurs : Raphaël HamezHervé Mignot

Nous avons assisté ces dernières semaines à la multiplication des tableaux de bord sur la propagation puis le reflux de l’épidémie, mais aussi d’essais, souvent peu probants disons-le, d’utilisation de modèles épidémiologiques redécouverts pour l’occasion, pour mesurer la progression de l’épidémie. Assez paradoxalement, cette crise a consacré une mondialisation de la donnée alors même que les nations se confinaient.

Nous pouvons maintenant nous poser la question de l’impact de cette période sur les pratiques d’analyse de données, et plus particulièrement ici sur le développement de modèles prédictifs. Et de constater que si rarement la donnée aura eu un tel impact dans l’analyse d’une crise, rarement une crise va avoir un tel impact sur les usages de la donnée.

Après cette crise sanitaire, allons-nous vivre une crise prédictive ? Allons-nous être aveuglé pendant un certain temps si tant est que nous n'ayons jamais eu capacité à prévoir auparavant. Car en effet, il s’est constitué dans toutes les séries de données, aussi bien des entreprises que des états, une sorte d’énorme « œdème » de la donnée durant la période de confinement global.

Organisation de l'article :

  • les impacts sur la pratique de modélisation
  • les axes d'intervention pour y remédier
  • une illustration sur un modèle de prévision des ventes
  • les opportunités qu'offre cette « trace » inédite dans les données.

Une crise prédictive ?

Nous avons déjà pu constater les impacts bien réels de la crise sanitaire sur les approches prédictives dans les entreprises :

  • la mise en pause, pour une durée indéterminée, de modèles de comportement clients (pour le marketing prédictif : segmentation des clients par leurs achats, scores d’attrition, de propension, etc.), que ce soit faute de données (fermeture des magasins) ou du fait du contexte exceptionnel invalidant leurs hypothèses de construction (plus d’utilisation des cartes de fidélité, indisponibilité généralisée de produits biaisant les achats, comportements atypiques et extrêmes),
  • l’inutilité pour un certain temps des modèles de prévision des ventes, de planification logistique que ce soit par la force des choses (fermeture de magasins, la prévision devient triviale...) ou par les nouvelles conditions opérationnelles (disparition de capacités significatives de transport, etc.).

 Pour autant, la donnée a conservé sa dimension stratégique, elle reste même dans certains cas le seul élément factuel sur lequel les entreprises essayent de construire une réponse rationnelle aux événements. Ainsi des démarches très agiles d’analyse des premiers signaux disponibles, pour le court-terme, ont été mises en place pour préparer et optimiser la réaction à la reprise d’activité post-confinement (que peut-on extrapoler des premières réouvertures ? quelle est la demande ? a-t-elle changé par rapport à l’avant crise ? comment optimiser les allocations de stock dans ce cas ? etc.).

Paradoxalement, il est peut-être risqué de nous prêter au jeu des prédictions sur l’impact de la crise sur les pratiques en data science. Mais soyons joueurs, nous verrons bien lesquels de nos constats tiendront l’épreuve du feu des mois qui viennent.

Tout d’abord quels sont les impacts potentiels du confinement et de déconfinement contrôlé sur les pratiques d’analyse de données ?

Le confinement va-t-il durablement nuire à la faculté des entreprises de prédire ?

  • une des hypothèses de l’utilisation des modèles prédictifs est une forme de continuité ainsi que la présence de structures (patterns) dans les données analysées
  • le futur normal sera-t-il comme le passé normal ? Les comportements que les données retranscrivent seront-ils les mêmes avant et après ? Et sinon, les données historiques n’étant plus pertinentes, faudra-t-il réaliser la grande purge ?
  • combien de temps sera-t-on en régime transitoire, avec peut-être des instabilités impropres à la modélisation statistique ?

Comment cela se traduira-t-il au niveau des données ?

  • Pas de données récentes stables suffisamment longues pour entraîner des modèles
  • Un « trou » sur cette période pour les séries annuelles
  • Une évolution des comportements n’assurant plus la reproductibilité et donc l’existence de « structures » (patterns) modélisables

Des questions où seule l’accumulation de données dans les mois qui viennent permettra de répondre.

Cela étant dit, quelles approches peut-on avoir pour survivre à cette potentielle « crise prédictive » ?

Modes d’interventions

Nous voyons trois axes d’intervention :

Axe 1 : le prétraitement des données

  • remplacer purement et simplement les données de la période de confinement par les données de la période équivalente de l’année dernière (ou d’une moyenne « intelligente » des années passées), avec des ajustements éventuels pour tenir compte des évolutions en tendances, de la continuité avec les données juste avant confinement, etc.)
  • considérer les données de la période de confinement comme des données manquantes et appliquer les techniques habituelles dans ce cas : remplacement par des statistiques comme la moyenne, la médiane (on se rapproche alors du cas précédent), imputation par un modèle ajusté sur les données historiques

Axe 2 : la création de variables de « contexte » ajoutés aux points de données de la période 

  • ajout de variables binaires sur la période pour qu’elles « absorbent » les particularités de la période (ex. : régresseur binaire sur les points de données de la période)
  • ajout de variables qui d’habitude n’entrent pas dans les modèles parce que ne variant pas suffisamment (ex. : dans le cas d’un modèle de prévision, réintroduire le nombre de magasins alors qu’habituellement on se contente d’une tendance)

Axe 3 : le choix de techniques de modélisation gérant mieux les changements brusques dans les données

  • comme les techniques à base d’arbres de décision, ou reposant sur des approches « robustes » d’apprentissage statistique
  • en effectuant des ré-échantillonnages sur les données récentes (à l’instar de ce que l’on peut faire pour les variables cibles fortement déséquilibrées).

Illustration

Donnons ici une illustration « optimiste » de l’impact de la crise du Covid-19 sur les modèles prédictifs, en se concentrant sur le cas des variables “transparentes” en condition normale. Les données, réelles, sont celles d’un grand retailer disposant d’un réseau de boutiques à travers le monde. La préoccupation de cette entreprise est d’actualiser son modèle de prévision des ventes à la suite de la pandémie. La figure ci-dessous représente les ventes hebdomadaires constatées sur son périmètre chinois (ses données ont été normalisées à 1 par discrétion), accompagnée du nombre de magasins ouverts (eux aussi normalisés à 1). La période encadrée en rouge clair correspond à la période de confinement.

Si nous postulons ici, pour l’exemple, un modèle linéaire simpliste de prévision des ventes en Chine comprenant comme variables explicatives :

●      les ventes d’il y a un an sur la période équivalente (past_year),

●      le nombre de boutiques ouvertes (nb_opened).

Sur la période précédant le confinement, il est clair que le nombre de magasins ouverts n’aura aucun impact sur le modèle de prévision des ventes. Même la petite brisure observée entre le passage de 2018 à 2019 (correspondant à une fermeture de magasins) ne semble pas se retranscrire dans un quelconque changement de tendance / niveau. Les statistiques du modèle sont d’ailleurs sans équivoques, l’effet de la constante (Intercept) étant compensé presque entièrement par celui du nombre de magasins ouverts (0,28 contre -0,27, coefficients normalisés).

Pour les adeptes de la « parcimonie », cette observation conduira tout simplement à retirer le nombre de magasins ouverts dans la modélisation des ventes futures. Pour les fans de feature engineering, cette variable ne passera jamais le filtre du « low variance threshold ». Et pour d’autres, sans doute la majorité, cela conduira à entrer une variable a priori muette (en tout cas en situation normale) dans la modélisation prédictive.

Coefficients:

            Estimate Std. Error t value Pr(>|t|)   

(Intercept)  0.28098    1.76752   0.159    0.874   

past_year    0.95219    0.07049  13.508   <2e-16 ***

nb_opened   -0.27352    1.80216  -0.152    0.880


Multiple R-squared:  80%

Un calcul très simple nous indique que prédire les ventes futures en période de Covid à l’aide de ce modèle est dramatique : en fixant à 0 la valeur de nb_opened on prédira en moyenne des ventes à 0,95 + 0,28, soit quasiment 25 % de plus que les valeurs passées !

En revanche, si nous étendons la période « d’entraînement » du modèle linéaire à la période de confinement, on remarquera une très forte significativité de la variable nb_opened (colonne Pr(>|t|) : 1.46e-15 ***). Ici les poids du modèle sont tels qu’un nombre de magasins ouverts égal à 0 conduira à prédire une baisse d’environ 60 % des ventes par rapport à celles de l’année dernière, là où en temps normal (100 % des magasins ouverts), la variable reste transparente.

Coefficients:

            Estimate Std. Error t value Pr(>|t|)   

(Intercept) -0.59426    0.07084  -8.389 3.51e-12 ***

past_year    0.94193    0.08212  11.470  < 2e-16 ***

nb_opened    0.60757    0.05932  10.243 1.46e-15 ***

Multiple R-squared:  78%

L’enseignement est clair : si la crise du Covid-19 remet en cause la validité des modèles prédictifs existants, elle permet d’un autre côté de faire parler des variables jusque-là « muettes » (et qui sont sans doute facilement disponibles, voire déjà présentes dans les modèles en place).

Paradoxalement, disposant maintenant des traces de l’impact d’une telle crise dans les données, un premier cas d’usage est de générer des scénarii « catastrophes » réalistes sur la base des observations réelles en temps de crise (que se passe-t-il dans les deux mois si je dois fermer X boutiques demain ?). Plus les effets de la variable en question seront observés et mesurés avec finesse (en prenant une granularité jour plutôt que semaine, en regardant les fermetures par province plutôt qu’au global, en croisant avec la durée de fermeture, etc.), mieux la réaction face aux événements de force majeure pourra être estimée (nous laissons de côté la question de savoir s’il est opportun de prendre en compte ces scénarii s’ils restent exceptionnels...).

D’autres approches de modélisation pourront être considérées :

  • construire des modèles à deux composantes : un modèle court-terme entraîné sur un historique court, un long terme sur un historique long (reste à déterminer comment opérer le glissement de l’un à l’autre, éventuellement sur la base d’un signal externe gérant le poids relatif des deux modèles, comme un indicateur de reprise par exemple).
  • Utiliser moins de modèles reposant sur un apprentissage à partir des données, et plus de modèles structuraux (on fait des hypothèses sur les équations qui régissent les liens entre les variables explicatives et la variable cible, et on ajuste les paramètres de ces équations sur les données).

Nous ignorons volontairement à ce stade la statistique des événements rares ou extrêmes, ou encore la théorie des catastrophes.

En résumé

Prétraitement

  • Copier-coller intelligent
  • Traitement en valeurs manquantes & imputation par modèle

Création de variables

  • Régresseurs de période
  • Réintroduction de variables habituellement « transparentes »

Modélisation

  • Méthodes type arbres pour les ruptures
  • Rééchantillonnage

Autres

  • Modèles bi-composantes court et long terme
  • Modèles structuraux

Des opportunités

La crise sanitaire est aussi créatrice de nombreuses opportunités sous l’angle de la data science :

  • il s’est créé une « expérience naturelle » à l’échelle mondiale, et l’analyse des données permettra probablement de mettre en évidence des relations, mesurer des impacts qu’il était impossible d’analyser en « régime stationnaire », en fonctionnement normal de la société et de l’économie (pensez au télétravail massif, qu’aucune économie n’aurait testé à cette échelle sans craindre le pire),
  • il s’est créé de nouvelles séries de données permettant de faire ressortir l’impact de variables causales dont l’effet était difficile à isoler jusqu’à présent (ex. : dans le cas de modèles de prévision de ventes, le nombre de points de vente dans un réseau stable vs. une tendance temporelle),
  • et probablement une mine d’or pour tester des modèles en exploitant les différences importantes de situations (confinement, fermetures, etc.) entre pays ou régions, pour évaluer l’impact de variables d’habitude « transparentes » pour les modèles (nombre de boutiques, flux logistiques, etc.)

 La data n’a donc pas perdu de sa pertinence et reste, comme déjà évoqué, un des seuls points de repère pour essayer de comprendre ce qui se passe et de piloter dans ces temps différents. Il est probable que les capacités de prédiction soient challengées pour quelques temps. Probablement que les analyses simples, sur des cycles courts, vont prévaloir opérationnellement. Mais un formidable jeu de données s’est créé durant ces derniers mois, dont la communauté de la data science aura à cœur d’explorer tous les enseignements.

L'expert métier :

Hervé Mignot

Associé Data et R&D

Contacter
  • Insights
  • Data
Crédit photo : Johns Hopkins University

Poursuivez votre
lecture

Découvrez l'offre Smart BI

Découvrez comment moderniser vos outils de reporting pour réussir votre transformation data