Anticiper par la maîtrise de la Data et des signaux faibles

Comme l’indique la revue Geostrategia, “Anticiper, pour garder un coup d’avance et éviter la rupture, s’avère une injonction pour le décideur stratégique” ([1]).

L’anticipation informationnelle nécessite une approche multi-temporelle : prendre le temps de stocker et d’analyser les data antérieures et actuelles pour mieux anticiper et interpréter les data futures… Au milieu de cet océan de data, l’enjeux est de détecter et maîtriser les signaux faibles. Mais qu’entend-t-on par « signaux faibles » ?

Un rapport de l’institut IMdR (Institut pour la Maitrise de Risques) sur l’analyse de risques ([2]) indique : « un signal faible est une information d’alerte précoce, de faible intensité, pouvant être annonciatrice d’une tendance ou d’un événement important ». Il peut s’agir d’un fait technique, humain ou organisationnel, ou encore d’une remontée d’expérience sur le terrain.

Pour anticiper, il faut donc faire face à de multiples enjeux technologiques (maîtriser le big data et le smart data, maîtriser les signaux faibles et les biais cognitifs), mais aussi savoir concilier l’homme et la machine !

L’infobésité rend l’anticipation de plus en plus difficile

« Déluge informationnel », « infobésité », « pollution informationnelle », « surcharge informationnelle » : notre société est victime d’une prolifération exponentielle des données ! En effet, nous connaissons une accélération massive des réseaux sociaux, des emails, de la téléphonie mobile haut débit et du partage de l’information, des photos, des vidéos en mode multicanal et multi-device…Notre vie quotidienne est entourée de données : avec les objets connectés, la ville connectée, les bâtiments intelligents et la domotique, les RFID et capteurs en tous genres. Encore plus fort : la technologie du “machine to machine” (M2M) se développe à grande échelle, en utilisant les télécommunications et l’informatique pour permettre des communications entre machines, et ceci sans intervention humaine ! Pire : avec les assistants personnels connectés, les montres et lunettes connectées…, l’avalanche d’information traverse à la fois nos vies professionnelles et personnelles ! Nous sommes donc toutes et tous « branché(e)s » 24h sur 24 h et donc producteur d’une masse colossale de data !

Comme l’indique Caroline Sauvajol-Rialland, Maître de conférence à Sciences Po Paris, “l’humanité affiche une production d’informations plus importante au cours des 30 dernières années qu’en 5 000 ans d’histoire » et « le volume d’informations numériques double environ tous les quatre ans » ([3]).

En plus d’être pléthoriques, les données sont désormais hétérogènes, majoritairement non structurées et éparpillées. Elles sont sans cesse partagées, entremêlées et co-construites, ce qui rend l’identification de la source d’information plus difficile.

Le fléau de la surabondance d’information engendre de nombreuses nuisances : « fatigue informationnelle, voire atteinte des limites capacitaires de l’être humain», redondances informationnelles, contradictions des informations, biais de perception, etc

En réponse, les technologies de Big Data viennent-elles à la rescousse d’une société « augmentée » mais noyée par l’information ?

Les technologies du Big Data et de l’IA sont-elle suffisantes pour détecter et interpréter les signaux faibles ?

Selon les experts, les big data se caractérisent par les 3 ou 4 « V » :

« volume » : massification et automatisation des échanges de données
« variété » : multiplication des sources et des supports de transfert des données, multiplication des types de données : brutes, non structurées ou semi-structurées
« vélocité » : production, récolte et analyse des données en temps réel
« visualisation » : optimisation de la compréhension et de l’analyse des données via la data-visualisation interactive

L’essor des big data est favorisé par les progrès et la compétitivité des systèmes de calcul (supercalculateurs, GPU et cartes graphiques, etc), de stockage (cloud computing) et de traitement des données (analyses statistiques et algorithmiques, Natural Language Processing, etc).

Par ailleurs, l’Intelligence artificielle et les grandes données sont intrinsèquement liées ; sans Big Data, l’IA ne pourrait tout simplement pas apprendre. En fait, les données non structurées et encore peu exploitées sont « l’or noir de l’IA ».

Deux systèmes d’apprentissages complémentaires, basés sur la technologie de l’IA se développent ces dernières années : le machine learning et le deep learning.

« Le machine learning reproduit un comportement grâce à des algorithmes d’apprentissage alimentés eux-mêmes par d’immenses sources d’informations. L’ordinateur s’entraîne et s’améliore, d’où le mot apprentissage, il « apprend » à partir de données et en extrait du savoir ([4]) ».
« Le deep learning ou apprentissage profond est un type d’intelligence artificielle où la machine est capable d’apprendre par elle-même… Le deep Learning s’appuie sur un réseau de neurones artificiels s’inspirant du cerveau humain. Ce réseau est composé de dizaines voire de centaines de « couches » de neurones, chacune recevant et interprétant les informations de la couche précédente » ([5]).

Au final, quelles sont les multiples « promesses » des technologies d’intelligence artificielle, de machine et deep learning :

optimiser la classification des données,
faire des corrélations entre les données et les faits,
détecter et analyser les signaux faibles,
extraire du sens,
faire de la prédiction.

Malgré toutes ces prouesses technologiques, de nombreuses contraintes limitent l’exploitation efficace des signaux faibles :

la RGPD, qui encadre juridiquement la durée et la profondeur de stockage des données, limite les apprentissages et la performance de l’IA et donc le repérage des signaux faibles,
la surabondance des signaux faibles (qui nuit à leurs analyses),
la non représentativité du jeu de données et les biais d’échantillonnage,
les biais statistiques,
les signaux faibles parasités par le bruit informationnel et les fortes déformations liées aux réseaux sociaux,
les biais de jugement.

Un des problèmes récurrent concerne les biais cognitifs qui entravent l’analyse des signaux faibles. “Les biais cognitifs peuvent se définir comme une distorsion de la manière dont l’information est traitée par rapport à un traitement rationnel ou à la réalité” ([6]). Quelques exemples de biais cognitifs (issus des «aléas » humains ou des aléas des algorithmes et de l’IA) :

les défauts d’interprétation du langage (associations erratiques de mots clés),
les stéréotypes autour d’un groupe social (minimisant les comportements individuels au profit du comportement d’un groupe supposé),
l’ignorance des interdépendances et des effets dominos,
la tendance à tirer des conclusions hâtives (biais d’attribution),
l’effet loupe : réduire l’existant à une fragmentation du réel dans une temporalité immédiate qui ne prend pas en compte le contexte global.

Au final, l’identification d’une corrélation entre deux faits n’équivaut pas à l’identification d’un lien de causalité entre ces faits !

La nécessité d’une approche « Smart Data » associée à une intervention humaine

Après avoir porté au pinacle les approches « Big Data », les experts du marketing, de la communication et de l’influence comprennent désormais l’intérêt d’une approche « Smart Data », plus orientée sur le qualitatif que sur le quantitatif.

On entend par « Smart Data » la donnée qualifiée, croisée et enrichie, segmentée, pertinente et directement utilisable pour une prise de décision et un passage à l’action.

Une approche « Smart » de la data consiste notamment en une méthodologie « agile » :

sélectionner un ou des bouquets de sources à analyser,
travailler et tester les requêtes avec des équipes de data analystes (mettre en place une veille ou une étude qualitative nécessitant de réfléchir aux bons wording à analyser),
tester / analyser un premier échantillon de data afin de voir si des tendances ou des biais se dégagent et éventuellement réajuster le jeu de données et/ou les filtres,
croiser les données et les enrichir avec les open data géographiques, démographiques, sanitaires, sociales, environnementales, etc,
cartographier et segmenter des acteurs, des influenceurs, experts et parties prenantes du sujet cible (acteurs habituels et acteurs émergeants),
cartographier les wording (habituels ou émergeants), les croiser avec des thésaurus (ou bibliothèques de mots) pour mieux les segmenter,
additionner deux niveaux d’analyses : les analyses et statistiques réalisées en mode automatique par les algorithmes de Data Science et d’IA + les analyses et prises de hauteur d’une équipe de data analystes,
faire parler la donnée et donc les signaux faibles via des data visualisation, permettant à la fois d’aller à l’essentiel, de bénéficier d’un tableau de bord analytique, mais aussi de visualiser les signaux faibles.

Chez Smart Data Power, nous revendiquons cette approche hybride : utiliser les technologies d’IA mais aussi capitaliser sur une « Intelligence non artificielle » (donc humaine) ! En effet, c’est bien l’Homme (avec son sens critique, sa culture, sa vision d’ensemble) qui doit se retrouver en bout de la chaîne du traitement de l’information pour lui donner de la valeur.

L’homme est en effet à ce jour plus subtil que la machine pour re-contextualiser des signaux faibles, pour corriger des biais statistiques et sémantiques et pour se projeter à court et moyen terme pour mieux anticiper !

Certes, les clients et décideurs sont pressés de disposer d’une analyse, d’un constat et d’un plan d’action pour mieux anticiper. Mais ne vaut-il pas mieux attendre quelques heures pour vérifier et prendre de la hauteur sur des masses de données analysées en quelques fractions de secondes par la machine, afin de rationnaliser et sécuriser une décision stratégique ? C’est en tout cas notre conviction : la qualité ne doit pas être oubliée et sacrifiée sur l’autel de la quantité et de l’immédiateté !

Au final, notre monde actuel, dans sa course sans fin à la rentabilité, à l’immédiateté, à l’hyper technologie, ne supporte pas l’ambiguïté, le manque de visibilité, le manque d’anticipation et le manque de résultat. Tout doit être maîtrisé : car « le temps est actif financier : tout ce qui entraîne sa perte et ralentit l’écoulement des flux engendre un impact économique »([7]).

Ce besoin de compréhension et d’anticipation s’est encore plus cristallisé en ce temps de crise du Covid. Reste à savoir jusqu’où l’humain et la machine vont renforcer leurs synergies pour optimiser les process d’anticipation au service de la gestion de crise…

Cédric Chabal, Directeur Associé Smart Data Power

[1] Geostrategia, juillet 2017, “Sécurité globale, anticipation, initiative: le rôle des signaux faibles”

[2] Détection et pertinence d’un signal faible dans le traitement d’un retour d’expérience, IMdR, n° P12-1

[3] Caroline Sauvajol-Rialland (2013), Infobésité, Comprendre et maîtriser la déferlante d’informations, Editions Vuibert

[4] – https://www.futura-sciences.com/tech/videos/machine-learning-apprentissage-automatique-6632/

[5] – https://www.futura-sciences.com/tech/definitions/intelligence-artificielle-deep-learning-17262/

[6] Etude « Algorithmes : biais, discrimination et équité » de février 2019 de Télécom ParisTech et de l’Université Paris Nanterre . https://www.telecom-paristech.fr/recherche/publications/algorithmes-biais-discrimination-equite.html

[7] SADIN, E. (2011). La société de l’anticipation. Edition inculte.