Man with gadgets

Le Turc mécanique est-il le nouveau visage de la science comportementale ?

read time - icon

0 min read

Dec 20, 2016

Cet article a été publié à l'origine dans [https://priceonomics.com/mechanical-turk-new-face-of-behavioral-science/] et appartient aux créateurs.

Le biais d'échantillonnage est l'une des choses les plus troublantes que l'on apprend en étudiant les sciences cognitives et comportementales.

En statistique, on parle de biais d'échantillonnage lorsque l'on fait des affirmations générales sur l'ensemble d'une population sur la base d'un échantillon qui ne représente qu'une partie particulière de cette population.

Imaginez que quelqu'un verse vingt balles de ping-pong jaunes dans un vase, puis vingt bleues. Si vous tirez immédiatement 10 balles du haut du vase, vous pourriez avoir l'impression erronée que toutes les balles du vase sont bleues.

Si vous secouez bien le vase avant de prélever votre échantillon, vous l'aurez randomisé, ce qui éliminera le biais d'échantillonnage.

De même, si vous réalisez une étude sur la psychologie ou le comportement humain et que l'échantillon n'est constitué que d'étudiants américains de premier cycle qui : (a) ont besoin d'argent pour la bière ou, pire encore, (b) sont obligés par les mêmes quelques professeurs de se porter volontaires comme sujets ; vous pourriez en ressortir avec l'impression erronée que tous les humains sont comme les étudiants occidentaux de premier cycle. Dans ces domaines, ils sont devenus le sujet standard de l'espèce dans son ensemble, un statut qu'ils ne méritent peut-être pas...

Dans une étude intitulée "Les gens les plus bizarres du monde", des chercheurs ont procédé à une sorte d'audit des études portant exclusivement sur des étudiants américains qui, entre autres similitudes, tendent à provenir de sociétés "occidentales, éduquées, industrialisées, riches et démocratiques (WEIRD)". Ils ont constaté que les étudiants américains de premier cycle étaient largement surreprésentés :

"67 % des échantillons américains [dans le Journal of Personality and Social Psychology en 2008] étaient composés uniquement d'étudiants de premier cycle dans des cours de psychologie. [...] Un étudiant américain de premier cycle sélectionné au hasard a plus de 4 000 fois plus de chances de participer à une recherche qu'une
personne sélectionnée au hasard en dehors de l'Occident.""

Ils ont ensuite comparé les résultats des études basées sur le modèle WEIRD à ceux d'études portant sur le même effet, mais dont l'échantillon provenait de populations n'appartenant pas au modèle WEIRD.

"Les domaines examinés comprennent la perception visuelle, l'équité, la coopération, le raisonnement spatial, la catégorisation et l'induction inférentielle, le raisonnement moral, les styles de raisonnement, les concepts de soi et les motivations connexes, ainsi que l'héritabilité du QI. Les résultats suggèrent que les membres des sociétés WEIRD, y compris les jeunes enfants, font partie des populations le
s moins représentatives que l'on puisse trouver pour généraliser sur les humains.""

"Dans l'ensemble, ces modèles empiriques suggèrent que nous devrions être moins cavaliers lorsque nous abordons les questions de nature humaine sur la base de données tirées de cette tranche particulièrement mince
et plutôt inhabituelle de l'humanité.

Le problème, c'est que les étudiants de premier cycle sont faciles - ils sont là, ils ne coûtent pas cher, ils ont peu de scrupules à se sacrifier pour la science. Ils sont au "sommet du vase". C'est ce qu'on appelle "l'échantillonnage de commodité".

Alors, comment les chercheurs peuvent-ils efficacement et économiquement "secouer le vase" et obtenir un échantillon plus représentatif de l'ensemble des humains ? Nombreux sont ceux qui pensent que cela passe par l'internet. Et ils sont de plus en plus nombreux à penser qu'il s'agit du Turc mécanique d'Amazon.

Les sciences du comportement, démocratisées

Nous prenons 35 000 décisions par jour, souvent dans des environnements qui ne sont pas propices à des choix judicieux.

Chez TDL, nous travaillons avec des organisations des secteurs public et privé, qu'il s'agisse de nouvelles start-ups, de gouvernements ou d'acteurs établis comme la Fondation Gates, pour débrider la prise de décision et créer de meilleurs résultats pour tout le monde.

En savoir plus sur nos services

Qu'est-ce que Mechanical Turk ?

Mechanical Turk est un marché du travail en ligne créé par Amazon en 2005. Les employeurs publient des offres d'emploi et les travailleurs les remplissent en échange d'une récompense monétaire fournie par l'employeur. C'est un peu comme Taskrabbit - un site de "petits boulots" avec un système de paie intégré - mais pour des tâches virtuelles. Sauf qu'avec Mechanical Turk, la rémunération est généralement inférieure à un dollar et les tâches ne prennent généralement que quelques minutes. (L'expression à la mode pour ce type d'échange de travail est "microtasking").

Amazon a d'abord développé Mechanical Turk pour un usage interne. Certaines tâches sont faciles pour les humains, mais difficiles pour les machines. Plus précisément, il y a certaines tâches qui sont faciles à réaliser par les humains eux-mêmes, mais qui sont beaucoup plus difficiles à réaliser par les humains qui construisent des machines. Ellen Cushing a écrit un bref historique de l'outil dans un article de l'East Bay Express :

"En 2005, après avoir créé des millions de pages web pour ses différents produits, [Amazon] a été confronté au problème de [l'identification des doublons] - une tâche qui, pour diverses raisons, déroutait les algorithmes informatiques, mais qu'un humain pouvait facilement effectuer en quelques secondes. [Si les ordinateurs ne peuvent pas faire le travail, pourquoi ne pas engager des humains pour le faire à leur place - pour agir, en fait, comme une autre partie du logiciel, exécutant des tâches infinitésimales et discrètes, souvent en succession rapide ? [Bezos] a décrit cela, avec élégance, comme une "intelligence artificielle artificielle" - des humains se comportant comme des machines se comportant comme des humains".

L'API Mechanical Turk intègre les solutions humaines dans un flux de travail automatisé. Elle permet à un logiciel d'interroger les résultats des travailleurs, appelés "turkers". Ainsi, au lieu de scanner les pixels de deux images et d'identifier ceux qui pourraient indiquer des caractéristiques communes, l'algorithme d'Amazon peut demander à l'API du Turc mécanique quel pourcentage de turkers a déclaré que ces images représentaient le même objet.

Amazon a nommé son invention d'après un célèbre canular du 18e siècle. Le "Turc", "le Turc mécanique" ou "l'automate joueur d'échecs" prétendait être le premier ordinateur joueur d'échecs au monde. Les spectateurs avaient l'impression qu'un automate humanoïde enturbanné venait de vaincre Benjamin Franklin ou Napoléon Bonaparte aux échecs. Ce n'est qu'après la destruction accidentelle de la machine par un incendie, et 50 ans après la mort de son inventeur, que le secret du Turc a été révélé : son "programme" était un maître d'échecs humain, recroquevillé à l'intérieur du corps de la machine, sous l'échiquier, qui déplaçait les pièces à l'aide d'aimants.

La documentation de Mechanical Turk destinée aux employeurs - appelés "demandeurs" dans l'écosystème de Turk - propose une variété de tâches pour lesquelles l'outil pourrait être utile, ainsi que diverses études de cas pour chacune d'entre elles. Turk a été utilisé pour la catégorisation, la vérification de données, la modération de photos, le marquage, la transcription et la traduction. Les sites pornographiques l'ont utilisé pour titrer des clips, et les sites non pornographiques pour signaler des contenus répréhensibles. Il est possible d'acheter des followers sur Turk, ou des retweets, dans les médias sociaux. Vous pouvez dépenser 200 dollars pour 10 000 dessins d'un "mouton tourné vers la gauche".

Le crowdsourcing au service de l'humanité

Mechanical Turk a été lancé en 2005, mais il a fallu plusieurs années pour qu'il commence à apparaître dans la littérature académique. Puis, lentement mais sûrement, les universitaires ont commencé à se rendre compte qu'une tâche qui peut être très, très facile pour un humain et littéralement impossible pour une machine est celle d'être un sujet dans une étude scientifique sur les humains. Ils ont également remarqué que ce groupe était plus diversifié qu'une étude de premier cycle classique. Mais surtout, ils ont remarqué que ces sujets étaient bon marché. Même comparés à des étudiants de premier cycle, ces sujets étaient bon marché.

Les premières études à intégrer Mechanical Turk ont évalué l'"intelligence artificielle" en tant que norme possible pour tester l'"intelligence artificielle". Une partie de la recherche sur le traitement du langage naturel (NLP), et d'autres types d'IA, consiste à comparer les performances d'un programme conçu par les chercheurs aux performances humaines pour la même tâche. Prenons par exemple la phrase "Je me sens vraiment mal aujourd'hui". Un être humain peut facilement classer cette phrase comme étant liée à des émotions et exprimant un état d'esprit négatif. Un programme d'analyse des sentiments serait jugé sur la mesure dans laquelle ses catégorisations correspondent aux catégorisations humaines. En 2008, une équipe de chercheurs en traitement du langage naturel a constaté que, dans de nombreux cas, les données du Turc mécanique étaient tout aussi bonnes que le marquage et la catégorisation beaucoup plus coûteux qu'ils avaient obtenus auprès d'experts (l'article était intitulé "Cheap and Fast, but is it Good ?").

Puis quelques études ont commencé à voir le jour, utilisant Mechanical Turk comme laboratoire, avec les turkers comme sujets. En 2009, deux chercheurs de Yahoo ont rédigé un article sur la manière dont les turkers réagissent à différentes incitations financières et ont souligné que leurs résultats s'appliquaient probablement à une population plus large (lorsque les incitations sont accrues, les gens travaillent plus vite et davantage, mais la qualité du travail ne s'améliore pas). Cela a commencé à ouvrir les portes. Les chercheurs ont commencé à utiliser Mechanical Turk pour recruter des participants à de courtes enquêtes en ligne, en leur posant des questions démographiques et quelques questions expérimentales, puis en tirant des conclusions à partir de leurs réponses. D'autres ont demandé à leurs sujets de participer à un jeu en ligne.

Parallèlement à tout cela, une multitude d'études ont été menées pour déterminer s'il s'agit d'une population test valable.

Tester les turfistes

Les chercheurs savaient déjà que les dindons de la farce constituaient une population très pratique, susceptible de fournir de vastes ensembles de données. Mais il y a toujours des façons pour que de grands ensembles de données pratiques ne soient pas valables - deux sortes de façons : ils peuvent être invalides de l'intérieur ou de l'extérieur.

On parle d'invalidité interne lorsqu'une étude ne parvient pas à donner une image précise des sujets échantillonnés. Les turfistes sont anonymes et éloignés des chercheurs. Passent-ils rapidement les expériences sans lire les questions ou sans prêter attention aux stimuli expérimentaux ? Participent-ils plusieurs fois à la même expérience, motivés par la récompense monétaire ?

Dans "Evaluating Online Labor Markets for Experimental Research : Amazon's Mechanical Turk", les chercheurs ont vérifié les adresses IP des répondants et n'ont trouvé que 7 doublons, représentant 2 % des réponses (14 sur 551). "Ce schéma n'est pas nécessairement la preuve d'une répétition de l'enquête", précise l'auteur. "Il se pourrait, par exemple, que ces adresses IP aient été attribuées dynamiquement à différents utilisateurs à différents moments, ou que plusieurs personnes aient répondu à l'enquête depuis la même grande entreprise, le même domicile ou même le même café."

Par défaut, Mechanical Turk interdit aux turkers d'effectuer une tâche qu'une seule fois. Les sujets pourraient contourner cette restriction en possédant plusieurs comptes - ce qui constituerait une violation de leur contrat d'utilisation - mais les turkers sont payés par Amazon et devraient posséder plusieurs comptes Amazon pour que cela fonctionne. De plus, les enquêtes ont tendance à être considérées comme un travail "intéressant" par rapport à beaucoup d'autres tâches proposées par Mechanical Turk, de sorte que la rémunération pour ces tâches n'est pas très compétitive, même selon les normes de Mechanical Turk, ce qui en fait une cible improbable pour les spammeurs.

Quant à savoir si les turkers sont attentifs, si leur identité dans le "monde réel" est anonyme, ils ont tout de même une réputation en ligne. Les demandeurs évaluent les turkers à la fin de chaque tâche et peuvent refuser de les payer si la tâche n'est pas à la hauteur. Cette évaluation suit le turker partout et influe sur ses perspectives d'emploi : de nombreuses tâches ne sont accessibles qu'aux turkers ayant une "cote d'approbation" de 95 % ou plus, une condition que les chercheurs peuvent également exiger.

Les mêmes chercheurs ont noté que lorsqu'ils ont posé une simple question de compréhension de lecture à des turkers, un pourcentage beaucoup plus élevé d'entre eux a répondu correctement (60 %) que les personnes ayant répondu à la même enquête par l'intermédiaire de Polimex/YouGov (49 %) et de Survey Sampling International (46 %) - ce qui suggère que les turkers sont plus attentifs aux questions, aux instructions et aux stimuli que les sujets de ces autres échantillons.

La force du micro-travail

L'invalidité externe, quant à elle, se produit lorsque les résultats d'une étude ne peuvent être généralisés à d'autres contextes et à d'autres échantillons. Le biais d'échantillonnage menace l'invalidité externe.

Alors, de quel type d'échantillon s'agit-il ? Qui remplit exactement ces enquêtes ? Qui se trouve "à l'intérieur" du Turc mécanique ?

"Les participants à MTurk ne sont pas représentatifs de la population américaine", écrivent les chercheurs dans "Amazon's Mechanical Turk : A New Source of Inexpensive, Yet High-Quality, Data ?" (Le Turc mécanique d'Amazon : une nouvelle source de données peu coûteuses mais de grande qualité). ou de toute autre population d'ailleurs".

Au départ, la base d'utilisateurs était essentiellement américaine. En 2007, lorsqu'Amazon a élargi son offre pour permettre aux travailleurs indiens d'être payés en roupies, et non plus en crédit Amazon, un deuxième type de tourneur a commencé à émerger : le tourneur indien.

La population actuelle est composée d'environ 34 % d'Indiens et de 46,8 % d'Américains. Ces deux types d'utilisateurs fonctionnent très différemment - les Américains et les autres occidentaux continuent de pratiquer le turf comme un moyen légèrement intéressant de passer le temps tout en gagnant très peu d'argent.

En revanche, les turkers indiens et ceux des pays en développement peuvent profiter du taux de change de la monnaie américaine pour gagner raisonnablement leur vie. Les forums en ligne regorgent de personnes qui élaborent des stratégies pour tirer le meilleur parti de Mechanical Turk et obtenir des revenus qui semblent indignes, jusqu'à ce que l'on se rende compte que tous les participants se trouvent dans le fuseau horaire CST.

Selon ces communautés, le salaire équitable sur Mechanical Turk serait de 10 cents par minute, soit 6 dollars de l'heure. Le salaire mensuel moyen en Inde en 2012 se situait dans la fourchette de 1 006 à 3 975 dollars de revenu annuel par habitant. À dix cents la minute, un turker "à temps plein" pourrait gagner cette somme en quelques mois.

Mais même si l'ensemble des turkers "n'est pas représentatif" d'une "quelconque population", les chercheurs peuvent les diviser en échantillons démographiques plus propres. Tout comme ils ont la possibilité de n'autoriser que les turkers ayant obtenu un certain score de qualité à accomplir leurs tâches, ils peuvent également faire en sorte de n'autoriser que les résidents des États-Unis. L'un des moyens de valider en externe l'utilisation de Mechanical Turk en tant qu'outil scientifique consiste à comparer les enquêtes nationales sur la population générale - et d'autres échantillons de recherche acceptés - aux données démographiques d'un échantillon de Mechanical Turk qui a été contraint de correspondre :

MTurk Sample Demographics

Comparaison d'un échantillon de turkers américains adultes avec d'autres échantillons nationaux à grande échelle "Evaluating Online Labor Markets for Experimental Research : Amazon's Mechanical Turk" Berinsky et. al. 2012

Les chercheurs ont pris un échantillon de 551 turkers parmi les adultes américains, et ont noté : " Sur de nombreux aspects démographiques, l'échantillon MTurk est très similaire à l'échantillon non pondéré [American National Election 2008-09 Panel Study (ANESP), une enquête Internet de grande qualité]. "

Ils ont également noté que "MTurk et l'ANESP sous-représentent quelque peu les personnes interrogées ayant un faible niveau d'éducation" - sur la base des différences entre eux et les échantillons "en personne" (le Current Population Survey [CPS - un projet du US Census/BLS], et l'American National Election Studies [ANES]). Les turkers américains sont également nettement plus jeunes que les autres échantillons, ce qui semble avoir un impact sur d'autres statistiques, comme le revenu et la situation matrimoniale.

large-scale national sample

Comparaison d'un échantillon de turkers américains adultes avec d'autres échantillons nationaux à grande échelle "Evaluating Online Labor Markets for Experimental Research : Amazon's Mechanical Turk" Berinsky et. al. 2012

Mais lorsqu'on les compare à des échantillons de commodité - comme un échantillon d'étudiants - les avantages de Mechanical Turk commencent vraiment à briller. L'échantillon de Mechanical Turk est "sensiblement plus âgé" que l'échantillon d'étudiants et plus proche des données démographiques américaines. Les chercheurs l'ont également comparé à des "échantillons d'adultes" de commodité, issus d'une autre étude, et ont noté que "ce qui est plus important pour les expériences de science politique, c'est que le biais d'identification au parti démocrate dans l'échantillon de MTurk est meilleur". Les chercheurs ont souligné qu'ils ne cherchaient pas à dénigrer les études en laboratoire. "Nous souhaitons simplement souligner que, par rapport aux alternatives pratiques [communément acceptées], l'échantillon de répondants de MTurk présente des caractéristiques attrayantes, même en dehors des questions de coût.

Turc expérimental

Une autre façon de valider l'utilisation de Mechanical Turk est de reproduire des expériences antérieures. "Evaluating Online Labor Markets for Experimental Research : Amazon's Mechanical Turk" reproduit avec succès trois expériences. L'étude "Running Experiments on Amazon Mechanical Turk" reproduit avec succès trois expériences. Pas toutes, mais de nombreuses études sur le Turc mécanique ont mené des expériences en laboratoire parallèlement à leurs expériences sur le Turc mécanique, afin de comparer les données.

En fait, les chercheurs ont reproduit un grand nombre d'expériences sur Mechanical Turk. L'une des raisons en est qu'il est très bon marché et - surtout par rapport aux études en laboratoire qu'ils reproduisent - incroyablement, incroyablement rapide. Il n'est pas nécessaire de former et d'employer des assistants de recherche pour superviser l'expérience. Il n'est pas nécessaire de trouver une salle de classe pour l'administrer. Vous n'avez pas besoin d'offrir 20 dollars par étudiant et de passer des mois à regarder la taille de votre échantillon augmenter tout au long du trimestre, puis de faire "boum" lorsque les étudiants en psychologie s'empressent de répondre aux exigences de leur cours. Tout ce dont vous avez besoin, c'est d'une connexion Internet, et les études de Turk ont tendance à prendre de quelques heures à quelques jours. Il est tout à fait concevable de payer pour 10 000 réponses, si votre expérience est suffisamment amusante.

Vous pouvez trouver ces expériences et leurs résultats compilés sur le blog Experimental Turk . L'analyse de nombreuses études recréées se conclut par quelque chose comme : "Dans l'ensemble, bien que notre estimation du pouvoir prédictif de l'évaluation des risques soit légèrement supérieure à celle de l'article original, le schéma de base des effets est le même", c'est-à-dire que les chiffres du Turc mécanique ne sont pas identiques, mais qu'ils concordent avec les résultats de l'étude originale. Et selon les chercheurs, les variations qui apparaissent sont à attendre de l'échantillon des turkers, car ces derniers sont connus pour être plus averses au risque, ou plus jeunes, etc.

Extrait de la page "À propos" du blog :

"[...] comme tout nouvel instrument, [Mechanical Turk doit] être testé en profondeur afin d'être utilisé en toute confiance. Ce blog vise à rassembler tous les efforts individuels déployés pour valider AMT en tant qu'outil de recherche.""

Le blog est rempli de liens vers des articles, d'annonces sur les ateliers à venir, de clips d'information et d'études et analyses informelles. Les bizarreries du travail avec les turkers en tant que groupe de sujets sont constamment découvertes - sont-ils plus susceptibles de chercher les réponses aux questions de l'enquête en ligne ? Comment faire le tri parmi les sujets qui ont déjà participé à des études similaires ? Les dormeurs sont-ils psychologiquement atypiques, même s'ils ne le sont pas démographiquement ? et les scientifiques débattent activement de la manière de les traiter.

Une recherche Google Scholar sur "amazon mechanical turk" renvoie à plus de 8 000 articles. Nombre d'entre eux semblent avoir dépassé la question de savoir s'il faut utiliser Mechanical Turk comme outil de recherche, et se concentrent davantage sur la manière de l'utiliser correctement et sur les cas où il faut faire preuve de prudence. Et beaucoup d'autres semblent simplement l'utiliser. Cela peut paraître étrange, mais de nombreuses recherches suggèrent qu'à bien des égards, Mechanical Turk est un cran au-dessus des méthodes plus traditionnelles, notamment l'échantillonnage de commodité d'étudiants et d'adultes et les grandes enquêtes sur Internet.

Ce qui est sûr, c'est que Mechanical Turk offre actuellement l'accès à au moins deux populations distinctes sur le plan culturel, économique et politique, qui maîtrisent toutes deux l'outil et parlent couramment l'anglais. Cela facilite les études internationales comparant les effets entre les populations, ce qui est exactement ce que les chercheurs disent être nécessaire pour lutter contre le biais d'échantillonnage des populations d'étudiants universitaires. Peut-être qu'en adoptant un nouvel outil inhabituel, les sciences cognitives et comportementales deviendront un peu moins "bizarres".

Read Next

Notes illustration

Vous souhaitez savoir comment les sciences du comportement peuvent aider votre organisation ?