Science des données

L'idée de base

Bien qu'elle soit souvent considérée comme un simple ensemble de chiffres sur un écran, la science des données informe sur ce que nous savons, qui nous connaissons et comment nous voyons le monde. Les professionnels de ce domaine choisissent les informations, les divertissements et les médias que nous consommons, constituant ainsi le "back-end" de la quasi-totalité des technologies et des médias sociaux. En collectant des données et en comprenant qui nous sommes, les utilisateurs, les scientifiques des données sont en mesure d'élaborer des informations qui nous intéressent, modifiant ou renforçant légèrement nos préférences, nos croyances et nos idéologies. Les scientifiques des données influencent tout, des produits que nous achetons aux causes qui nous tiennent à cœur.

Termes clés

Données

Faits et statistiques rassemblés à des fins de référence ou d'analyse.

Informatique

L'étude des principes et de l'utilisation des ordinateurs.

Exploration de données

Le processus utilisé par les entreprises pour transformer les données brutes en informations utiles.

Apprentissage automatique

L'utilisation de systèmes informatiques capables d'apprendre ou de s'adapter aux circonstances de manière indépendante, en utilisant des algorithmes adaptables plutôt que des instructions cohérentes.

Intelligence artificielle

Capacité d'un ordinateur ou d'un robot à accomplir des tâches qui requièrent généralement le jugement ou l'intelligence d'un être humain.

L'histoire

Au cours des années 1980 et 1990, le terme "data mining" a été utilisé pour désigner l'analyse de données brutes sans hypothèse ni intention spécifique. D'autres termes tels que "pêche aux données", "récolte d'informations" et "extraction de connaissances" ont également été fréquemment utilisés pour décrire ce processus de collecte d'informations à partir de grandes bases de données.

En 2001, l'informaticien William S. Cleveland a rédigé un document de recherche dans lequel il plaidait pour que les statistiques dépassent la théorie et entrent dans la pratique. Il souhaitait combiner l'exploration de données et l'informatique, afin que les statistiques deviennent une puissante force d'innovation. Parce que ce saut changerait radicalement le domaine des statistiques, Cleveland a soutenu qu'un nouveau nom - science des données - s'imposait.

Cleveland n'a pas été le premier à préconiser ce changement, mais c'est lui qui est le plus largement reconnu pour cela aujourd'hui. En fait, dès 1985, l'informaticien C.F. Jeff Wu avait utilisé le terme "science des données" pour remplacer le terme "statistiques" lors d'une conférence à Pékin, et avait continué à l'utiliser tout au long de ses travaux jusqu'aux années 2000.

Au début des années 2000, l'expression "science des données" est devenue plus largement utilisée et a commencé à apparaître dans les noms de comités et de revues, notamment dans le Journal of Data Science de l'université de Columbia en 2003. Alors que l'internet devenait plus interactif au tournant du millénaire, l'augmentation du nombre de données sur l'internet a posé une question aux informaticiens : que faire de toutes ces données ?

L'explosion des données a suscité le besoin de réponses, qui sont apparues sous la forme de la science des données. Au cours des 15 à 20 années qui se sont écoulées depuis, aucune définition de la "science des données" n'a fait l'objet d'un consensus, et les professionnels tentent toujours de comprendre ce que ce terme signifie exactement. L'abandon du terme "statistiques" témoigne toutefois de l'introduction des données dans le domaine pratique. Ce changement culturel montre que les statistiques ne sont plus seulement des chiffres - désormais considérées comme des "données", elles peuvent être transformées en connaissances qui peuvent aider à résoudre les problèmes du monde réel.

Les personnes

William S. Cleveland

William S. Cleveland est un informaticien et professeur américain. Après avoir obtenu un doctorat en statistiques à l'université de Yale, Cleveland a travaillé au département de recherche en statistiques de Bell Labs pendant plus de dix ans, avant de devenir professeur à l'université de Purdue. Les recherches de M. Cleveland ont porté, entre autres, sur les réseaux informatiques, l'apprentissage automatique, la science de l'environnement et la visualisation des données. Dans une publication de 2001, M. Cleveland a inventé le terme "science des données" en tant qu'amalgame de l'exploration des données et de l'informatique.

C.F. Jeff Wu

C.F. Jeff Wu a également obtenu un doctorat en statistiques et a travaillé pendant de nombreuses années comme professeur d'ingénierie au Georgia Institute of Technology. Il est connu pour ses travaux sur la conception expérimentale et algorithmique. Lors d'une conférence à Pékin en 1985, Wu a utilisé pour la première fois le terme "science des données" comme nom alternatif pour les statistiques. Il a ensuite donné une conférence en 1997 intitulée "Statistics = Data Science ?". Bien qu'il ne s'agisse pas de l'introduction officielle de ce terme (qui a eu lieu en 2001), Wu l'a fait connaître au public et a été l'un des premiers à plaider pour que les statistiques soient rebaptisées "science des données".

DJ Patil

DJ Patil est un mathématicien et informaticien américain qui a popularisé le terme "data scientist" en tant que titre professionnel. En 2011, Patil a écrit le livre Building Data Science Teams pour décrire ce que signifie être un data scientist et comment réussir. En 2012, il a écrit Data Jujitsu-The Art of Turning Data Into Product, qui se concentre sur la résolution de problèmes dans la sphère de la science des données. De 2015 à 2017, M. Patil a occupé le poste de Chief Data Scientist de l'Office of Science and Technology Policy des États-Unis, où il a dirigé la mission du pays en faveur de la démocratisation des données publiques fédérales.

Conséquences

De nos jours, les données sont collectées en permanence à des volumes extrêmement élevés. Chaque fois que vous cliquez sur une page web, que vous envoyez un courrier électronique ou que vous passez devant une publicité ciblée, des algorithmes recueillent des données sur vos préférences et vos centres d'intérêt, composant ainsi un profil de votre identité constamment mis à jour. C'est ce qu'on appelle les profils psychographiques.

Comme vous pouvez l'imaginer, les grandes entreprises qui comptent des millions d'utilisateurs reçoivent des quantités massives de données, appelées "big data". Depuis 2010 environ, les entreprises reçoivent de grandes quantités de données grâce aux plateformes de médias sociaux interactifs, une innovation connue sous le nom de "Web 2.0".

Grâce à ces données, toutes sortes d'entreprises savent à qui elles devraient s'adresser pour leurs produits ou services - et, plus précisément, quels produits ou services, à quelle fréquence et même à quel moment de la journée. Les scientifiques des données analysent et interprètent ces données au moyen d'algorithmes et utilisent ces informations en ciblant les publicités de leurs produits sur les personnes les plus susceptibles de les utiliser ou de les acheter. Il s'agit d'une forme d'architecture des choix.

Les scientifiques des données tirent également d'autres types d'informations de ces données brutes qui peuvent les aider à améliorer leur marque. Si, par exemple, une organisation constate qu'elle passe beaucoup de temps sur son site web à essayer de trouver l'onglet "contactez-nous", les concepteurs du site web ou de l'expérience utilisateur peuvent choisir de rendre cet onglet plus facilement accessible. De cette manière, sans avoir à appeler l'entreprise pour "parler à un responsable", votre instinct et vos actions fournissent automatiquement des données aux entreprises, qui interpréteront alors vos préoccupations et corrigeront leurs bogues en conséquence.

Les scientifiques des données peuvent aller plus loin que l'interprétation des données : ils peuvent également créer de nouvelles solutions aux problèmes mondiaux, qui peuvent se présenter sous la forme de logiciels ou d'algorithmes. Il peut s'agir d'apprentissage automatique, d'intelligence artificielle ou simplement de nouvelles applications ou de nouveaux sites web.

Aujourd'hui, le big data est un outil vital pour les entreprises et les organisations de toutes tailles, car il a changé ce qui est considéré comme possible en matière de sensibilisation, de recrutement, de marketing et de service à la clientèle. Au cours des cinq dernières années, les entreprises axées sur les données ont vu leur valeur augmenter de 333 milliards de dollars et sont aujourd'hui évaluées à environ 1,2 billion de dollars.

En d'autres termes, la science des données est la meilleure forme de science comportementale disponible pour les ordinateurs : elle aide les humains à prendre des décisions et leur donne ensuite la possibilité de mettre la recherche en pratique.

Controverses

Il est très probable que vous ayez vous-même participé à une controverse sur la science des données à un moment ou à un autre, mais vous ne le saviez peut-être pas.

Si la compréhension des utilisateurs est extrêmement bénéfique pour les entreprises, les organisations et les applications, il existe de nombreuses façons de manipuler les utilisateurs en fonction des objectifs de ces parties. C'est là que réside la controverse au cœur de la science des données : sera-t-elle utilisée pour le bien ou pour le mal ?

Bien entendu, la science des données peut être utilisée à bon escient : si votre technologie peut vous inciter à prendre une décision positive à laquelle vous avez songé, vous pouvez lui en être reconnaissant. S'ils savent que vous êtes un candidat potentiel susceptible de signer une pétition intéressante, par exemple, le fait de pouvoir vous faire parvenir cette pétition profitera en fin de compte à la cause que vous avez choisie. Ainsi, la science des données peut aider une organisation à atteindre un grand nombre d'utilisateurs et, éventuellement, à susciter des changements positifs dans le monde réel.

Cependant, aux mains de concepteurs moins altruistes, la science des données peut avoir des effets négatifs sur notre santé mentale, notre prise de décision, notre politique et même nos relations. Le fait que la technologie nous comprenne si bien peut être préjudiciable lorsqu'elle continue à solliciter de plus en plus notre attention. Les publicités, les vidéos et les articles qui nous intriguent continuent d'apparaître et de voler notre attention, ce qui fait que nous sommes de plus en plus aspirés par nos écrans et que nous nous éloignons de notre vie réelle. Aujourd'hui, les adolescents passent en moyenne près de 7,5 heures par jour sur leurs écrans, sans compter le temps consacré aux travaux scolaires.

En outre, le fait que la technologie nous comprenne si bien signifie qu'elle nous fournit des informations qui s'alignent sur nos croyances. De ce fait, nous sommes limités dans les perspectives qui s'offrent à nous et dans la connaissance que nous avons d'autres perspectives, ce qui nous permet de capitaliser sur le biais de confirmation. L'association de la science des données et des médias sociaux a donc eu des effets polarisants sur notre paysage politique, comme le décrit l'émission The Social Dilemma de Netflix.

Études de cas

Technologie et vie privée

Une autre controverse majeure autour de la science des données concerne ses implications en matière de protection de la vie privée, qui ont été largement violées lors d'un scandale impliquant Facebook et la société de conseil politique Cambridge Analytica. En 2016, Cambridge Analytica a utilisé une application appelée "This Is Your Digital Life" pour accéder aux données de 87 millions d'utilisateurs de Facebook sans leur consentement. Le cabinet de conseil a utilisé ces données pour aider les campagnes politiques de Donald Trump et Ted Cruz, en analysant quel type de publicité ou d'article de presse pourrait être le plus susceptible de les faire voter en fonction de leurs goûts et de leurs intérêts. Le mot d'ordre #DeleteFacebook s'est répandu sur Twitter, les gens s'intéressant à la manière dont la vie privée et les médias sociaux pouvaient influencer les résultats politiques. À la suite du scandale, Cambridge Analytica a déposé le bilan en 2018 et Facebook a été condamné à une amende de 5 millions de dollars. Le documentaire de Netflix The Great Hack décrit le scandale en détail.

Santé et surveillance

Dans d'autres cas, cependant, les données peuvent être utilisées pour apporter des changements positifs. Par exemple, en recueillant des données sur les déplacements des personnes et les résultats des tests, l'application canadienne COVID est en mesure d'avertir les gens s'ils ont côtoyé une personne atteinte du COVID-19. Il est alors conseillé à ces utilisateurs de s'isoler, dans l'espoir qu'une réaction en chaîne contribue à ralentir la propagation. Au Canada, l'application n'a eu qu'un effet réel minime ; des initiatives similaires en Asie ont toutefois contribué de manière significative à ralentir la pandémie grâce à des valeurs gouvernementales différentes. Plus d'informations ici.

Articles connexes de TDL

Des algorithmes pour simplifier la prise de décision

Dans cet article, Jason Burton, chercheur doctorant, nous aide à comprendre la relation inévitable entre les algorithmes et les humains. Alors que nous ne pensons pas aux algorithmes en termes personnels, Burton nous montre que les algorithmes sont simplement une extension de l'esprit humain, et nous apprend comment optimiser leur omniprésence pour notre propre bénéfice.

L'impact de la technologie sur nos environnements de choix

Dans cet épisode de notre podcast, The Decision Corner, l'animateur Brooke Struck s'entretient avec le chercheur et analyste politique Gianluca Sgueo. M. Sgueo aborde les relations entre le big data et la vie privée, l'architecture des choix et la démocratie dans notre société, ainsi que la manière dont les gouvernements s'appuient sur le big data pour s'attaquer à des problèmes sociétaux urgents et attirer les citoyens en tant qu'utilisateurs.

L'importance de la science des décisions

Cet article de K.V. Rao explique comment la science des données aide les grandes entreprises à prendre des décisions importantes et pourquoi elle est un outil essentiel pour les entreprises du futur.

Sources d'information

Read Next

Notes illustration

Vous souhaitez savoir comment les sciences du comportement peuvent aider votre organisation ?