UK flag

Le Big Data transforme l'approche sociologique : comment l'émergence de la donnée massive reconfigure-t-elle les modalités du savoir scientifique ?
Le
Publications
Par

Le sociologue et le Big Data : La donnée comme carte et comme territoire

Le 23 juin 2008, Chris Anderson annonce dans le magazine Wired la fin de la théorie et de la méthode scientifique, rendues obsolètes par la croissance exponentielle des Big Data et la puissance de calcul vertigineuse des algorithmes. Les succès récents de la génomie, permis par le traitement d'une quantité colossale de données, ou la performance des modèles de profilage des internautes élaborés par Google, conduisent le journaliste américain à affirmer : « We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot. »

L'infinie complexité et la variété des données disponibles ne se laissant plus appréhender dans leur totalité par des modèles classiques, il reviendrait à l'ordinateur de les traiter d'abord et au scientifique d'en contextualiser les résultats ensuite. L'explication par les causes, à l'aide de théories produites par des cerveaux humains, serait surclassée par les corrélations émergeant mathématiquement du croisement informatique de jeux massifs de données. Et le journaliste de conclure : « There's no reason to cling to our old ways. It's time to ask : What can science learn from Google ? »

Le Big Data transforme l'approche sociologique

La prophétie délibérement provocatrice et réductrice de Anderson soulève un sujet passionnant : comment l'émergence de la donnée massive reconfigure-t-elle les modalités du savoir scientifique ? Si l'article de Wired reste centré sur les sciences « dures », la question se pose avec autant d'acuité pour les sciences humaines et sociales. Le sociologue Dominique Boullier, tout aussi provocateur que le journaliste, introduit son article « Vie et mort des sciences sociales avec le big data » par la formule suivante : « Et si les sciences sociales disparaissaient de la surface de la terre et de la pensée des êtres sociaux ? ».

Pour le chercheur, ce nouvel univers de « traces numériques » généré par les réseaux sociaux, blogs, sites et autres plateformes d'achat, ne remet pas en cause la légitimité des sciences sociales comme mode de connaissance, mais les invite à créer un cadre conceptuel compatible avec le mode d'existence de ce nouveau type de données. Car le Big Data n'indique pas seulement un changement d'échelle dans les modes de calcul : il produit un nouveau cadre de pensée.

 

Un nouveau raisonnement statistique

En effet, pour le sociologue, l'ère du Big Data et les dispositifs techniques qui la sous-tendent produisent une « nouvelle offre d'interprétation du social », fondée sur des modes de raisonnement renouvelés.

Là où les sciences sociales traditionnelles étudient des populations dont il est possible d'estimer les contours, par échantillonnage représentatif ou par recensement exhaustif, les communautés saisies à travers les données numériques qu'elles produisent ne peuvent être rapportées à une totalité de référence. L'illimité du web empêche d'en délimiter les frontières. Ce glissement induit une première distorsion dans le raisonnement statistique : on passe d'une logique de l'exhaustivité par le biais de la représentativité à une logique de la surabondance par le volume et la variété des données. Par ailleurs, là où les sciences sociales visent à révéler les causes des phénomènes qu'elles explorent, les démarches fondées sur le data mining cherchent des corrélations entre des variables sans nécessairement en restituer la signification sociologique.

Et c'est ici la différence fondamentale entre les modélisations du Big data et la recherche classique : si les corrélations issues du croisement d'un grand volume de données produisent bien une forme de savoir sur le monde social, leur vocation est de servir l'action avant d'augmenter la connaissance. Les sciences sociales doivent donc s'approprier ce nouveau raisonnement statistique et en préciser les conditions de validité scientifique, sans abandonner leur visée explicative.

« Correlation is enough » : faut-il renoncer à expliquer ?

La formule de Chris Anderson, pour qui « la corrélation suffit », résume bien cette idée selon laquelle la connaissance des causes des phénomènes n'est pas requise pour agir sur eux. Les algorithmes peuvent ainsi établir des liens entre des actes de consommation sans pour autant fournir une compréhension des logiques individuelles de choix. La capacité prédictive l'emporte sur la visée explicative et compréhensive.

La collaboration entre la Fnac et Tinyclues, présentée durant l'édition 2015 du salon Big Data Paris, en est une parfaite illustration. Les algorithmes de Machine Learning élaborés par la start-up permettent un ciblage des clients d'une précision sans précédent, permettant d'anticiper leurs futures consommations en analysant leurs achats les plus récents. Après un an de test, la Fnac annonçait une augmentation de 30 % du chiffre d'affaire sur les campagnes de promotion utilisant le procédé.

Les pratiques actuelles de data mining sont ainsi portées par une logique qui est celle de leur champ premier de production : celui des marques et de la finance. Si l'efficacité de ces modèles de prédiction et d'action est bien réelle, les sciences sociales, pour devenir d'authentiques Social Data Sciences (SDS), doivent être capables de s'assigner des objectifs théoriques propres qui ne peuvent se réduire à une demande de performance économique à court terme. Il s'agit alors pour les sciences sociales de produire leur propre cadre d'intelligibilité des données numériques, « pour ne pas être embarqués dans la vague puissante du big data qui prétendrait rendre compte et fournir la réflexivité nouvelle à la place des sciences sociales », comme le craint Dominique Boullier.

 

Le numérique comme outil et comme objet d'étonnement

Ce qui caractérise la spécificité des Social data science par rapport aux autres démarches de data mining,  c'est sans doute l'idée que l'empire des traces numériques, nouveau « continent du social » selon la formule de Dominique Boullier, constitue un objet d'étonnement et d'investigation avant de se présenter comme un or noir informationnel dont il ne s'agirait que de récolter les profits. Bien sûr, les données numériques et les calculs qu'elles permettent ouvrant un champ de possibles que les sciences sociales doivent prioritairement investir, mais sans perdre de vue qu'il s'agit là d'un espace dont nous ne faisons que découvrir la topologie.

La chercheuse Fidelia Ibekwe-Sanjuan rappelle ainsi dans son article « Big Data, Big machines, Big Science : vers une société sans sujet et sans causalité ? » , qu'il serait illusoire de penser qu'avec le Big Data « la science rentrerait dans une nouvelle ère de savoirs qui seraient immanents aux données elles-mêmes, c'est-à-dire, des savoirs qui ne seront plus produits par un processus social de questionnements, de vérifications et de contre-vérifications. » La sociologue peut ainsi répondre à Chris Anderson que si l'ordinateur n'a effectivement besoin de personne pour effectuer ses traitements, le scientifique en chair et en os est toujours requis pour analyser ce qui est traité , la matière même du calcul, la nature de l'information et la structure des réseaux qui la produisent.

Le réseau comme terrain d'enquête

Des démarches de recherche pluridisciplinaire mêlant sciences sociales et développement numérique apparaissent, qui ont en commun d'approcher les données à travers ce double prisme. Les réseaux sociaux numériques, foyer et lieu de dispersion des traces numériques, constituent leur terrain d'enquête naturel.

Ainsi Algopol , un projet développé dans le cadre du projet ANR « Politique des algorithmes » réunit sociologues et informaticiens de plusieurs centres de recherche autour de la question de la production et des usages des algorithmes permettant de classer les informations et les personnes. Parmi leurs travaux en cours, une recherche se penche sur la forme des interactions interindividuelles sur Facebook. Une application dédiée a pour but de collecter les données Facebook des enquêtés qui acceptent de participer au projet, et de restituer en retour aux participants la visualisation de leur réseau d'amis et la structure de leurs interactions. Les données collectées sur l'activité réelle des individus sur Facebook fait ensuite l'objet d'un traitement qualitatif et quantitatif.

Pour les chercheurs, qui détaillent leurs motivations dans un long article , les réseaux numériques ne sauraient être appréhendés comme un simple enregistrement transparent de la société. La spécificité des pratiques de sociabilité en ligne et leur influence réciproque avec les pratiques hors-ligne sont au coeur du questionnement : « les données du web sont produites dans des contextes spécifiques, elles s'insèrent dans un ensemble de médiations techniques et de cadres d'usages qui ne peuvent jamais être éliminés d'une analyse qui risque à tout moment de prendre la carte pour le territoire. » En plus des volontaires, les chercheurs ont ainsi accès à un panel représentatif de l'institut CSA qui permettra de corriger les biais des analyses tirées des seules données numériques.

Réseaux numériques et géographiques

Hors du strict domaine des réseaux sociaux numériques, les nouveaux réseaux informationnels débordent le cadre virtuel du web et viennent se superposer à la géographie physique par le truchement des objets connectés. Ainsi Vincent Blondel, chercheur de l'Université catholique de Louvain fait dès 2001 la demande à son administration d'accéder aux relevés des communications internes des postes téléphoniques de son campus pour élaborer une cartographie des communications. Il réitère l'expérience en 2008 sur une base des 4 millions d'utilisateurs d'un opérateur mobile belge. L'algorithme de Louvain est ainsi le premier outil efficace de détection rapide de la structuration des communautés. Le procédé est aujourd'hui utilisé par Linkedin, Twitter, Flickr ou encore YouTube pour explorer leurs réseaux.

Les applications de cet algorithme, détaillées dans un article scientifique paru dans le EPJ Data Science du 5 août, sont multiples et débordent le cadre disciplinaire des sciences sociales. Outre les perspectives marketing qu'ouvre la possibilité d'adresser une publicité ciblée géographiquement, les auteurs de l'article évoquent les progrès qui pourraient être faits en matière de prévision des déplacements, d'estimation des flux de trafic, de prévention des risques d'accidents de la route, de calcul de l'empreinte carbone des usager ou encore de compréhension des modèles de propagation des maladies infectieuses.

 

Vers des sciences sociales de troisième génération ?

Dominique Boullier replace l'évolution des sciences sociales depuis le début du 20 ème siècle dans une histoire parallèle des dispositifs socio-techniques de production des données statistiques et des conceptions du monde social. A une première génération de sciences sociales, fondée sur la construction de registres exhaustifs de population par le biais du recensement et sur la représentation d'un ensemble démographique comme faisant « société », a succédé une deuxième génération, fondée sur la pratique du sondage au sein d'échantillons représentatifs permettant l'exploration d'une « opinion publique ».

Les sciences sociales de troisième génération, fondées sur l'émergence des traces numériques comme dispositif de savoir, ont encore à produire le concept de l'entité sociale qu'elles permettent de connaître. Dominique Boullier propose de parler d'une sociologie des « répliques », entités circulantes produites au sein de réseaux à la géométrie fluctuante. L'objet de cette sociologie ne serait plus l'individu, ni même le groupe, mais bien le processus de circulation des entités numériques en lui-même. Nous pouvons également avancer le concept de réseau, également central dans la caractérisation de ce nouveau champ d'étude comme nous l'avons vu.

En tout état de cause, il convient d'adopter une attitude à la fois ambitieuse quant aux possibilités ouvertes par ces nouveaux outils et humble quant à notre connaissance de ces nouvelles entités. N'en déplaise à Chris Anderson, l'explosion de la donnée ne signe pas l'arrêt de mort des sciences sociales, elle leur offre au contraire un nouveau commencement.

Partager cet article