¿Es Mechanical Turk la nueva cara de las ciencias del comportamiento?

3 min read

Dec 20, 2016

Este artículo apareció originalmente en [https://priceonomics.com/mechanical-turk-new-face-of-behavioral-science/] y pertenece a sus creadores.

Una de las cosas más preocupantes que se aprenden como estudiante de ciencias cognitivas y del comportamiento es el sesgo de muestreo.

En estadística, se habla de sesgo de muestreo cuando se hacen afirmaciones generales sobre toda una población basándose en una muestra que sólo representa a una parte concreta de esa población.

Imagina que alguien vierte veinte pelotas de ping pong amarillas en un jarrón, y luego veinte azules. Si sacas inmediatamente diez pelotas de la parte superior del jarrón, podrías tener la impresión equivocada de que todas las pelotas del jarrón son azules.

Si sacudes bien el jarrón antes de tomar la muestra, la habrás aleatorizado, eliminando el sesgo de muestreo.

Del mismo modo, si se realiza un estudio sobre la psicología o el comportamiento humanos y la muestra está formada únicamente por estudiantes universitarios estadounidenses que: (a) necesitan dinero para la cerveza o, lo que es peor, (b) están obligados por los mismos pocos profesores a ofrecerse voluntarios como sujetos, se podría llegar a la impresión errónea de que todos los seres humanos son como los estudiantes universitarios occidentales. En estos campos se han convertido en el sujeto estándar para la especie en general, lo cual es un estatus que quizás no merezcan .

En un estudio titulado "The Weirdest People in the World?" (¿Las personas más raras del mundo?), los investigadores realizaron una especie de auditoría de los estudios que toman como muestra exclusivamente a estudiantes universitarios estadounidenses, quienes, entre otras similitudes, suelen proceder de sociedades "occidentales, educadas, industrializadas, ricas y democráticas (WEIRD)". Descubrieron que los estudiantes universitarios estadounidenses en particular estaban sobrerrepresentados:

""El 67% de las muestras estadounidenses [en el Journal of Personality and Social Psychology en 2008] estaban compuestas únicamente por estudiantes universitarios de cursos de psicología. [...] Un estudiante universitario estadounidense seleccionado al azar tiene más de 4.000 veces más probabilidades de participar en una inv

estigación que una persona de fuera de Occidente seleccionada al azar"".

A continuación, compararon los resultados de los estudios con sesgo WEIRD con los de estudios que investigaron el mismo efecto, pero tomaron como muestra sujetos de poblaciones no WEIRD.

""Los dominios examinados incluyen la percepción visual, la equidad, la cooperación, el razonamiento espacial, la categorización y la inducción inferencial, el razonamiento moral, los estilos de razonamiento, los autoconceptos y las motivaciones relacionadas, y la heredabilidad del CI. Los resultados sugieren que los miembros de las sociedades WEIRD, incluidos los niños pequeños, se encuentran entre las pob

laciones menos representativas que se pueden encontrar para generalizar sobre los seres humanos.""

"En general, estos patrones empíricos sugieren que debemos ser menos arrogantes a la hora de abordar cuestiones sobre la naturaleza humana basándonos en datos extraídos de esta porción de la humanidad particularmen

te delgada y bastante inusual".

El problema es que los estudiantes universitarios son fáciles: están cerca, son baratos, tienen pocos reparos en sacrificarse por la ciencia. Están en la "parte superior del florero". Esto se llama "muestreo de conveniencia".

Entonces, ¿cómo pueden los investigadores "agitar el jarrón" de forma eficaz y económica y obtener una muestra más representativa de los seres humanos en general? Muchos piensan que hay que recurrir a Internet. Y un número cada vez mayor de ellos piensa que tiene que ver con Mechanical Turk de Amazon.

¿Qué es Mechanical Turk?

Mechanical Turk es un mercado laboral en línea creado por Amazon en 2005. Los empleadores publican trabajos y los trabajadores los completan a cambio de una recompensa monetaria proporcionada por el empleador. Es algo así como Taskrabbit -un tablón de "trabajos raros" con un sistema de nóminas integrado- pero para tareas virtuales. Con la diferencia de que en Mechanical Turk la remuneración suele ser inferior a un dólar y los trabajos suelen durar sólo unos minutos. (La palabra de moda para este tipo de intercambio laboral es "microtarea").

Amazon desarrolló por primera vez Mechanical Turk para uso interno. Hay ciertas tareas que son fáciles para los humanos pero difíciles para las máquinas. Más exactamente, hay ciertas tareas que son fáciles de hacer para los humanos, pero considerablemente más difíciles de hacer para las máquinas. Ellen Cushing escribió una breve historia de la herramienta en un artículo del East Bay Express :

"En 2005, tras haber creado millones de páginas web para sus distintos productos, [Amazon] se enfrentó al problema de [identificar duplicados], una tarea que, por diversas razones, confundía a los algoritmos informáticos, pero que un humano podía realizar fácilmente en cuestión de segundos. [...] Si los ordenadores no pueden hacer el trabajo, ¿por qué no contratar a humanos para que lo hagan por ellos, para que actúen, esencialmente, como otra parte del software, realizando tareas infinitesimales y discretas, a menudo en rápida sucesión? [Bezos] lo describió, elegantemente, como "inteligencia artificial artificial": humanos que se comportan como máquinas que se comportan como humanos".

La API de Mechanical Turk integra las soluciones humanas en un flujo de trabajo automatizado. Permite que los resultados de los trabajadores, llamados "turkers", sean consultados por un programa de software. Así, en lugar de escanear los píxeles de dos imágenes e identificar qué píxeles podrían indicar características compartidas entre ellas, el algoritmo de Amazon puede preguntar a la API de Mechanical Turk qué porcentaje de turkers dijo que estas imágenes representaban el mismo objeto.

Amazon bautizó su invento con el nombre de un famoso bulo del siglo XVIII. "El Turco", "el Turco Mecánico" o "el Ajedrecista Autómata" afirmaba ser el primer ordenador del mundo que jugaba al ajedrez. A los espectadores les parecía que un autómata humanoide con turbante acababa de derrotar a Benjamin Franklin o a Napoleón Bonaparte al ajedrez. No fue hasta la destrucción accidental de la máquina por un incendio, y 50 años después de la muerte de su inventor, cuando se reveló el secreto del Turco: su "programa" era un maestro de ajedrez humano, acurrucado dentro del cuerpo de la máquina bajo el tablero, moviendo las piezas con imanes.

La documentación de Mechanical Turk para empleadores -llamados "solicitantes" en el ecosistema Turk- ofrece una variedad de tareas en las que la herramienta podría ayudar, y una variedad de casos prácticos para cada una de ellas. Turk se ha utilizado para: categorización, verificación de datos, moderación de fotos, etiquetado, transcripción y traducción. Los sitios pornográficos lo han utilizado para poner títulos a los vídeos, y los sitios no pornográficos, para marcar contenidos censurables. Puedes comprar seguidores en redes sociales en Turk, o retweets. Puedes gastarte 200 dólares en 10.000 dibujos de "una oveja mirando a la izquierda".

Crowdsourcing: la naturaleza de la humanidad

Mechanical Turk se lanzó en 2005, pero tardó varios años en empezar a aparecer en la literatura académica. Entonces, sin prisa pero sin pausa, los académicos empezaron a darse cuenta de que una tarea que puede ser muy, muy fácil para un ser humano y literalmente imposible para una máquina es la de ser sujeto de un estudio científico sobre seres humanos. También observaron que se trataba de un grupo más diverso que el de un estudio universitario estándar. Pero además, se dieron cuenta de que estos sujetos eran baratos. Incluso en comparación con los estudiantes universitarios, estos sujetos eran baratos.

Los primeros estudios que incorporaron Mechanical Turk evaluaron la "inteligencia artificial artificial" como un posible estándar con el que probar la "inteligencia artificial". Parte de la investigación sobre el procesamiento del lenguaje natural (PLN), y otros tipos de IA, consiste en comparar el rendimiento de un programa diseñado por los investigadores con el rendimiento humano en la misma tarea. Por ejemplo, tomemos la frase "Hoy me siento muy decaído". Un humano puede categorizar fácilmente esta frase como relacionada con las emociones y que expresa un afecto negativo. Un programa de análisis de sentimientos se juzgaría en función de lo bien que coincidieran sus categorizaciones con las de los humanos. En 2008, un equipo de investigadores del procesamiento del lenguaje natural descubrió que, en muchos casos, los datos de Mechanical Turk eran tan buenos como el etiquetado y la categorización, mucho más costosos, que extraían de los expertos (el artículo se titulaba "Cheap and Fast, but is it Good?").

Entonces empezaron a aparecer algunos estudios en los que se utilizaba Mechanical Turk como laboratorio, con los usuarios como sujetos. En 2009, dos investigadores de Yahoo publicaron un artículo sobre la respuesta de los usuarios a diferentes incentivos económicos y señalaron que sus resultados probablemente se aplicaban a una población más amplia (cuando se aumentan los incentivos, la gente trabaja más y más rápido, pero la calidad del trabajo no mejora). Esto empezó a abrir las puertas. Los investigadores empezaron a utilizar Mechanical Turk para reclutar participantes en breves encuestas en línea, haciéndoles preguntas demográficas y algunas preguntas experimentales, y luego extrayendo conclusiones de sus respuestas. Otros hicieron que los sujetos participaran en un juego en línea .

Paralelamente, se han realizado numerosos estudios sobre si se trata de una población de prueba válida.

Poner a prueba a los Turkers

Los investigadores ya sabían que los turiferarios eran una población muy útil que podía generar grandes conjuntos de datos. Sin embargo, los grandes conjuntos de datos que se obtienen de forma cómoda pueden dar problemas de dos tipos: pueden ser inválidos internamente o inválidos externamente.

La invalidez interna se produce cuando un estudio no proporciona una imagen exacta de los sujetos incluidos en la muestra. Los participantes son anónimos y están alejados de los investigadores. ¿Pasan a toda velocidad por los experimentos sin leer las preguntas ni prestar atención a los estímulos experimentales? ¿Participan en el mismo experimento más de una vez, motivados por la recompensa monetaria?

En "Evaluating Online Labor Markets for Experimental Research: Amazon's Mechanical Turk", los investigadores comprobaron las IP de los encuestados y sólo encontraron 7 duplicados, lo que representa el 2% de las respuestas (14 de 551). "Este patrón no es necesariamente una prueba de repetición de encuestas", especifica el autor. "Podría darse el caso, por ejemplo, de que estas direcciones IP se asignaran dinámicamente a diferentes usuarios en distintos momentos, o que varias personas realizaran la encuesta desde la misma gran empresa, hogar o incluso cafetería".

Por defecto, Mechanical Turk limita a los usuarios a completar una tarea una sola vez. Los encuestados podrían eludir esta restricción si tuvieran varias cuentas (violando así su acuerdo de usuario), pero a los turkers se les paga con Amazon y tendrían que tener varias cuentas de Amazon para que esto funcionara. Además, las encuestas tienden a considerarse trabajos "interesantes" en comparación con muchas de las otras tareas que ofrece Mechanical Turk, por lo que el pago por estas tareas no es muy competitivo, incluso para los estándares de Mechanical Turk, lo que las convierte en un objetivo poco probable para los spammers.

En cuanto a si los turkers prestan atención, aunque sus identidades en el "mundo real" son anónimas, siguen teniendo reputación en Internet. Los solicitantes puntúan a los turkers al completar cada tarea y pueden retener el pago si la tarea no está a la altura. Esa puntuación acompaña al turker y afecta a sus perspectivas laborales: muchas tareas sólo están abiertas a turkers con un "índice de aprobación" del 95% o superior, una condición que también pueden exigir los investigadores.

Los mismos investigadores observaron que, cuando plantearon una sencilla pregunta de comprensión lectora a los turiferarios, un porcentaje mucho mayor de ellos respondió correctamente (60%) que los que recibieron la misma encuesta a través de Polimex/YouGov (49%) y Survey Sampling International (46%), lo que sugiere que los turiferarios están más atentos a las preguntas, instrucciones y estímulos que los sujetos de esas otras muestras.

La microfuerza laboral

En cambio, la invalidez externa se produce cuando los resultados de un estudio no se generalizan a otros contextos y muestras. El sesgo de muestreo amenaza la invalidez externa.

Entonces... ¿qué tipo de muestra es ésta? ¿Quién rellena exactamente estas encuestas? ¿Quién está "dentro" de Mechanical Turk?

"Los participantes de MTurk no son representativos de la población estadounidense", escribieron los investigadores en "Amazon's Mechanical Turk: A New Source of Inexpensive, Yet High-Quality, Data?" o de cualquier otra población".

Aunque en un principio la base de usuarios era mayoritariamente estadounidense, en 2007, cuando Amazon permitió a los trabajadores indios recibir sus pagos en rupias en lugar de sólo en crédito de Amazon, empezó a surgir un segundo tipo de turker: el turker indio.

La población actual es aproximadamente un 34% india y un 46,8% estadounidense. Estos dos usuarios funcionan de forma muy diferente: los estadounidenses y otros turiferarios occidentales siguen haciéndolo como una forma medianamente interesante de pasar el tiempo mientras ganan una pasta muy marginal.

Mientras que los turkers indios, y otros de países en desarrollo, pueden aprovechar el tipo de cambio de la moneda estadounidense para obtener unos ingresos razonables. Los foros en línea están repletos de personas que elaboran estrategias para sacar el máximo partido de Mechanical Turk a cambio de unos ingresos que parecen indignos, hasta que te das cuenta de que todos los usuarios están en la zona horaria CST.

Según estas comunidades, el salario justo en Mechanical Turk es supuestamente de diez céntimos por minuto, o 6 dólares la hora. El salario medio mensual en India en 2012 se situaba entre 1.006 y 3.975 dólares de renta anual per cápita. A diez céntimos el minuto, un turker "a tiempo completo" podría ganar eso en pocos meses.

Pero incluso si los usuarios en total "no son representativos" de "ninguna población", los investigadores pueden dividirlos en muestras demográficas más limpias. Del mismo modo que tienen la opción de permitir que sólo los turkers con una determinada puntuación de calidad completen sus tareas, también pueden hacer cosas como permitir sólo a residentes en Estados Unidos. Una forma de validar externamente Mechanical Turk como herramienta para la ciencia es comparar las encuestas nacionales de la población general -y otras muestras de investigación aceptadas- con los datos demográficos de una muestra de Mechanical Turk que se haya restringido para que coincida:

MTurk Sample Demographics

Comparación de una muestra de turkers estadounidenses adultos con otras muestras nacionales a gran escala "Evaluating Online Labor Markets for Experimental Research: Amazon's Mechanical Turk" Berinsky et. al. 2012

Los investigadores tomaron una muestra de 551 turkers adultos estadounidenses, y observaron: "En muchos aspectos demográficos, la muestra de MTurk es muy similar a la no ponderada [American National Election 2008-09 Panel Study (ANESP), una encuesta por Internet de alta calidad]".

También señalaron que "tanto MTurk como ANESP infrarrepresentan en cierta medida a los encuestados con bajo nivel educativo", basándose en las diferencias entre ellos y las muestras "en persona" (la Encuesta de Población Actual [CPS - un proyecto del Censo/BLS de EE.UU.], y los Estudios Electorales Nacionales de EE.UU. [ANES]). Los turkers estadounidenses son también notablemente más jóvenes que cualquiera de las otras muestras, lo que parece repercutir en otras estadísticas, como los ingresos y el estado civil.

large-scale national sample

Pero cuando se compara con muestras de conveniencia, como una muestra de estudiantes universitarios, las ventajas de Mechanical Turk realmente empiezan a brillar. La muestra de Mechanical Turk es "sustancialmente mayor" que la muestra de estudiantes, y más cercana a los datos demográficos que reflejan los Estados Unidos. La investigación también la comparó con "muestras de adultos" de conveniencia, de otro estudio, y señaló que, "lo que es más importante para los fines de los experimentos de ciencias políticas, la inclinación de identificación con el partido Demócrata en la muestra de MTurk es mejor". Los investigadores señalaron que no pretendían menospreciar los estudios de laboratorio. "Simplemente queremos subrayar que, cuando se compara con las alternativas prácticas [comúnmente aceptadas], el conjunto de encuestados de MTurk tiene características atractivas, incluso aparte de las cuestiones de coste".

Experimental Turk

Otra forma de validar el uso de Mechanical Turk es replicar experimentos anteriores. "Evaluating Online Labor Markets for Experimental Research: Amazon's Mechanical Turk "replica con éxito tres. En "Running Experiments on Amazon Mechanical Turk" se replican tres con éxito. No todos, pero sí muchos estudios sobre la Turca Mecánica realizaron experimentos de laboratorio paralelos a sus experimentos de la Turca Mecánica, para comparar los datos.

De hecho, los investigadores han replicado muchos experimentos en Mechanical Turk. Una de las razones es que es muy barato y, especialmente en comparación con los estudios de laboratorio que están replicando, increíblemente rápido. No es necesario formar y emplear asistentes de investigación para supervisar el experimento. No es necesario conseguir un aula en la que realizarlo. No es necesario ofrecer 20 dólares por estudiante y pasar meses viendo cómo aumenta el tamaño de la muestra durante todo el trimestre y luego "boom" cuando los estudiantes de psicología se apresuran a cumplir con los requisitos del curso. Todo lo que necesitas es una conexión a Internet, y los estudios Turk suelen durar entre unas horas y unos días. Si tu experimento es lo bastante divertido, es posible que pagues 200 dólares por 10.000 respuestas.

Puede encontrar estos experimentos y sus resultados recopilados en el blog Experimental Turk . Muchos de los análisis de los estudios recreados concluyen en algo así como: "En general, aunque nuestra estimación del poder predictivo de la evaluación de riesgos es modestamente mayor que en el artículo original, el patrón básico de los efectos es el mismo", es decir, las cifras de Mechanical Turk no son idénticas, pero siguen coincidiendo con las conclusiones del estudio original. Y según los investigadores, las variaciones que surgen son de esperar de la muestra de turkers, porque se sabe que son más reacios al riesgo, o más jóvenes, etc.

En la página del blog:

""[...] como cualquier instrumento nuevo, [Mechanical Turk debe] ser probado a fondo para poder ser utilizado con confianza. Este blog pretende recoger cualquier esfuerzo individual realizado para validar AMT como herramienta de investigación.""

El blog está repleto de enlaces a artículos, anuncios de próximos talleres, noticias y estudios y análisis informales. Constantemente se descubren las peculiaridades de trabajar con turkers como reserva de sujetos: ¿son más propensos a buscar en Internet las respuestas a las preguntas de la encuesta? ¿Cómo descartar sujetos que ya hayan participado en estudios similares? ¿Son los turkers psicológicamente atípicos aunque no lo sean demográficamente? - y los científicos debaten activamente cómo tratarlos.

Una búsqueda en Google Scholar de "amazon mechanical turk" arroja más de 8.000 artículos. Muchos parecen haber dejado atrás la cuestión de si utilizar Mechanical Turk como herramienta académica, y se centran más en cómo utilizarla correctamente y cuándo actuar con cautela. Y muchos más parecen estar utilizándola. Puede parecer extraño, pero ahora hay una gran cantidad de investigaciones que sugieren que en muchos aspectos Mechanical Turk está un paso por encima de los métodos más tradicionales, incluyendo el muestreo de conveniencia de estudiantes y adultos, y las grandes encuestas por Internet.

Una cosa segura es que Mechanical Turk ofrece actualmente acceso al menos a dos poblaciones cultural, económica y políticamente distintas, ambas adeptas a la herramienta y con dominio del inglés. Esto facilita los estudios internacionales que comparan los efectos entre poblaciones, que es exactamente lo que los investigadores dicen que se necesita para combatir el sesgo de muestreo de las poblaciones de estudiantes universitarios. Quizá la adopción de una nueva herramienta poco habitual haga que las ciencias cognitivas y del comportamiento sean un poco menos "raras".

Industries

Resources

¿Es Mechanical Turk la nueva cara de las ciencias del comportamiento?

¿Qué es Mechanical Turk?

Crowdsourcing: la naturaleza de la humanidad

Poner a prueba a los Turkers

La microfuerza laboral

Experimental Turk

Read Next

Vencer los prejuicios: Estrategias para eliminar prejuicios en las decisiones cotidianas

Ciencias del comportamiento 101: la próxima frontera del progreso social

¿Toma malas decisiones financieras por evitar la información?

Eager to learn about how behavioral science can help your organization?

Industries

Resources

¿Es Mechanical Turk la nueva cara de las ciencias del comportamiento?

¿Qué es Mechanical Turk?

Crowdsourcing: la naturaleza de la humanidad

Poner a prueba a los Turkers

La microfuerza laboral

Experimental Turk

Read Next

Vencer los prejuicios: Estrategias para eliminar prejuicios en las decisiones cotidianas

Ciencias del comportamiento 101: la próxima frontera del progreso social

¿Toma malas decisiones financieras por evitar la información?

Eager to learn about how behavioral science can help your organization?

Get new behavioral science insights in your inbox every month.