Ciencia de datos

La idea básica

Aunque a menudo se ve como un puñado de números en una pantalla, la ciencia de datos informa sobre lo que sabemos, a quién conocemos y cómo vemos el mundo. Los profesionales de este campo eligen la información, el entretenimiento y los medios que consumimos, constituyendo el "back-end" de prácticamente toda la tecnología y las redes sociales. Como resultado de la recopilación de datos y la comprensión de quiénes somos nosotros, los usuarios, los científicos de datos son capaces de curar la información que nos atrae, cambiando o reforzando ligeramente nuestras preferencias, creencias e ideologías. Los científicos de datos influyen en todo, desde lo que compramos hasta las causas que nos preocupan.

Términos clave

Datos

Hechos y estadísticas reunidos para su consulta o análisis.

Informática

Estudio de los principios y el uso de los ordenadores.

Minería de datos

El proceso que utilizan las empresas para convertir los datos brutos en información útil.

Aprendizaje automático

Utilización de sistemas informáticos capaces de aprender o adaptarse a las circunstancias de forma autónoma, mediante el uso de algoritmos adaptables en lugar de instrucciones coherentes.

Inteligencia artificial

Capacidad de un ordenador o robot para realizar tareas que normalmente requieren el juicio o la inteligencia de un ser humano.

Historia

A lo largo de los años 80 y 90, "minería de datos" era el término utilizado para referirse al análisis de datos en bruto sin una hipótesis o intención específica. Otros términos como "pesca de datos", "recolección de información" y "extracción de conocimientos" también se utilizaban con frecuencia para describir este proceso de recopilación de información a partir de grandes bases de datos.

En 2001, el informático William S. Cleveland escribió un trabajo de investigación en el que abogaba por que la estadística fuera más allá de la teoría y pasara a la práctica. Quería combinar la minería de datos con la informática, abriendo las posibilidades para que la estadística fuera una poderosa fuerza de innovación. Como este salto cambiaría radicalmente el campo de la estadística, Cleveland argumentó que era necesario un nuevo nombre: ciencia de los datos.

Cleveland no fue el primero en abogar por este cambio, aunque hoy es el más reconocido por ello. De hecho, ya en 1985, el informático C.F. Jeff Wu había utilizado el término "ciencia de datos" para sustituir al de "estadística" durante una conferencia en Pekín, y había seguido utilizándolo a lo largo de toda su obra hasta la década de 2000.

A principios de la década de 2000, "ciencia de datos" se convirtió en un término de uso más extendido y empezó a aparecer en nombres de comités y revistas, en concreto The Journal of Data Science de la Universidad de Columbia en 2003. A medida que Internet se hizo más interactiva con el cambio de milenio, el aumento de datos en la red planteó una pregunta a los informáticos: ¿qué hacemos con todos estos datos?

El auge de los datos despertó la necesidad de respuestas, que llegaron en forma de ciencia de datos. En los 15-20 años transcurridos desde entonces, no se ha llegado a una definición consensuada de "ciencia de datos", y los profesionales siguen intentando averiguar qué significa exactamente este término. Sin embargo, el abandono del término "estadística" demuestra la introducción de los datos en el ámbito práctico. Este cambio cultural demuestra que las estadísticas ya no son sólo números: ahora se consideran "datos" y pueden transformarse en ideas que ayuden a resolver problemas del mundo real.

Personas

William S. Cleveland

William S. Cleveland es un informático y profesor estadounidense. Tras doctorarse en Estadística por la Universidad de Yale, Cleveland trabajó en el Departamento de Investigación Estadística de los Laboratorios Bell durante más de una década, tras lo cual pasó a ser profesor de la Universidad Purdue. Los intereses de investigación de Cleveland han abarcado las redes informáticas, el aprendizaje automático, las ciencias medioambientales y la visualización de datos, entre otros. En una publicación de 2001, Cleveland acuñó el término "ciencia de datos" como amalgama de la minería de datos y la informática.

C.F. Jeff Wu

C.F. Jeff Wu también se doctoró en Estadística y ha trabajado muchos años como profesor de ingeniería en el Instituto Tecnológico de Georgia. Es conocido por sus trabajos sobre diseño experimental y algorítmico. Durante una conferencia en Pekín en 1985, Wu utilizó por primera vez el término "ciencia de datos" como nombre alternativo de la estadística. Posteriormente, en 1997, pronunció una conferencia titulada "Estadística = ¿Ciencia de datos?". Aunque no fue su introducción formal -que llegó en 2001-, Wu dio a conocer el término al público y fue uno de los primeros defensores de que la estadística pasara a llamarse "ciencia de datos".

DJ Patil

DJ Patil es un matemático e informático estadounidense que popularizó el término "científico de datos" como título profesional. En 2011, Patil escribió el libro Building Data Science Teams para describir qué significa ser un científico de datos y cómo serlo con éxito. En 2012, escribió Data Jujitsu-The Art of Turning Data Into Product, que se centra en la resolución de problemas en el ámbito de la ciencia de datos. Patil fue científico jefe de datos de la Oficina de Política Científica y Tecnológica de Estados Unidos de 2015 a 2017, donde dirigió la misión del país hacia la democratización de los datos federales públicos.

Consecuencias

Hoy en día, los datos se recopilan constantemente en volúmenes extremadamente altos. Cada vez que usted hace clic en una página web, envía un correo electrónico o se desplaza por un anuncio dirigido, los algoritmos están recopilando datos sobre sus preferencias e intereses, componiendo un perfil constantemente actualizado de su identidad. Son los llamados perfiles psicográficos.

Como se puede imaginar, las grandes empresas que tienen millones de usuarios reciben cantidades masivas de datos, denominados "big data". Desde aproximadamente 2010, las empresas reciben grandes cantidades de datos como resultado de las plataformas interactivas de los medios sociales, una innovación que se conoce como Web 2.0.

Como resultado de estos datos, todo tipo de empresas obtienen información sobre a quién deben dirigir sus productos o servicios y, más concretamente, qué productos o servicios, con qué frecuencia e incluso a qué horas del día. Los científicos de datos analizan e interpretan estos datos mediante algoritmos y utilizan la información para dirigir la publicidad de sus productos a las personas con más probabilidades de interactuar con ellos o comprarlos. Es una forma de arquitectura de la elección.

Los científicos de datos también extraen otros tipos de conclusiones de estos datos brutos que pueden ayudarles a mejorar su marca. Si, por ejemplo, una organización se da cuenta de que se pasa mucho tiempo en su sitio web tratando de encontrar la pestaña "contáctenos", los diseñadores del sitio web o de la experiencia del usuario pueden optar por hacer que esta pestaña sea más fácilmente accesible. De este modo, sin tener que llamar a la empresa y "hablar con un responsable", tus instintos y acciones alimentan automáticamente de datos a las empresas, que interpretarán tus preocupaciones y corregirán sus fallos en consecuencia.

Los científicos de datos pueden ir más allá de la interpretación de datos: también pueden crear nuevas soluciones a problemas mundiales que pueden venir en forma de software o algoritmos. Estos pueden existir como aprendizaje automático, inteligencia artificial o, simplemente, nuevas aplicaciones o sitios web.

Hoy en día, los macrodatos son una herramienta vital para empresas y organizaciones de todos los tamaños, ya que han cambiado lo que se considera posible en lo que se refiere al alcance de la empresa, la contratación, el marketing y el servicio al cliente. En los últimos cinco años, las empresas basadas en datos han aumentado su valor en 333.000 millones de dólares y ahora están valoradas en aproximadamente 1,2 billones de dólares.

En pocas palabras, la ciencia de datos es la mejor forma de ciencia del comportamiento de que disponen los ordenadores: ayuda a los humanos a tomar decisiones y luego les da la oportunidad de poner en práctica la investigación.

Controversias

Lo más probable es que usted mismo haya formado parte de una controversia sobre la ciencia de datos en algún momento, aunque puede que no lo supiera.

Aunque comprender a los usuarios es muy beneficioso para empresas, organizaciones y aplicaciones, hay muchas formas de manipularlos en función de los objetivos de estas partes. Ahí radica la controversia en la piedra angular de la ciencia de datos: ¿se utilizará para el bien o para el mal?

Por supuesto, hay formas en las que la ciencia de datos se utiliza para el bien: si su tecnología puede empujarle hacia una decisión positiva que ha estado pensando en tomar, puede estar agradecido. Si saben que usted es un candidato potencial al que le gustaría firmar una petición valiosa, por ejemplo, entonces poder hacerle llegar esta petición beneficiará en última instancia a su causa de elección. De este modo, la ciencia de datos puede ayudar a una organización con un objetivo a llegar a muchos usuarios y, posiblemente, influir en un cambio positivo en el mundo real.

Sin embargo, en manos de diseñadores menos altruistas, la ciencia de datos puede tener efectos negativos en nuestra salud mental, nuestra toma de decisiones, nuestra política e incluso nuestras relaciones. Que la tecnología nos entienda tan bien puede ser perjudicial cuando sigue mendigando cada vez más nuestra atención. A medida que los anuncios, vídeos y artículos que nos intrigan siguen apareciendo y robando nuestra atención, nos vemos cada vez más absorbidos por nuestras pantallas y alejados de nuestra vida real. Hoy en día, los adolescentes pasan una media de casi 7,5 horas al día frente a sus pantallas, sin contar el tiempo que dedican a las tareas escolares.

Además, que la tecnología nos entienda tan bien significa que nos alimenta con información que se alinea con nuestras creencias. Por ello, estamos limitados en las perspectivas que obtenemos y en cuánto aprendemos de otras perspectivas, capitalizando el sesgo de confirmación. La combinación de la ciencia de datos y las redes sociales ha tenido efectos polarizadores en nuestro panorama político, como se describe en The Social Dilemma de Netflix.

Casos prácticos

Tecnología y privacidad

Otra gran controversia en torno a la ciencia de datos han sido sus implicaciones para la privacidad, que se vieron ampliamente vulneradas en un escándalo en el que se vieron implicadas Facebook y la consultora política Cambridge Analytica. En 2016, Cambridge Analytica utilizó una aplicación llamada "This Is Your Digital Life" para acceder a los datos de 87 millones de usuarios de Facebook sin su consentimiento. La consultora utilizó los datos para ayudar a las campañas políticas de Donald Trump y Ted Cruz, analizando qué tipo de anuncio o noticia podría tener más probabilidades de hacerles votar en función de sus gustos e intereses. El hashtag #DeleteFacebook fue tendencia en Twitter a medida que la gente se interesaba por cómo la privacidad y las redes sociales podían influir en los resultados políticos. Como resultado del escándalo, Cambridge Analytica se declaró en bancarrota en 2018 y Facebook fue multada con 5 millones de dólares. El documental de Netflix The Great Hack describe el escándalo en detalle.

Salud y vigilancia

En otros casos, sin embargo, los datos pueden utilizarse para un cambio positivo. Por ejemplo, mediante la recopilación de datos sobre el paradero de las personas y los resultados de las pruebas, la aplicación COVID de Canadá puede notificar a las personas si han estado cerca de alguien con COVID-19. A continuación, se aconseja a estos usuarios que se aíslen, con la intención de que la reacción en cadena ayude a frenar la propagación. Se aconseja entonces a estos usuarios que se aíslen, con la intención de que una reacción en cadena ayude a frenar la propagación. En Canadá, la aplicación ha tenido un efecto real mínimo; iniciativas similares en Asia, sin embargo, han contribuido significativamente a frenar la pandemia como resultado de los diferentes valores gubernamentales. Más información aquí.

Artículos relacionados con TDL

Algoritmos para simplificar la toma de decisiones

En este artículo, el investigador doctoral Jason Burton nos ayuda a comprender la inevitable relación entre algoritmos y humanos. Aunque no pensamos en los algoritmos en términos personales, Burton nos muestra que los algoritmos son simplemente una extensión de la mente humana, y nos enseña cómo podemos optimizar su omnipresencia en nuestro propio beneficio.

El impacto de la tecnología en nuestros entornos de elección

En este episodio de nuestro podcast, The Decision Corner, la presentadora Brooke Struck se sienta con el investigador y analista Gianluca Sgueo. Sgueo analiza las relaciones entre los macrodatos y la privacidad, la arquitectura de la elección y la democracia en nuestra sociedad, así como el modo en que los gobiernos recurren a los macrodatos para abordar problemas sociales acuciantes y atraer a los ciudadanos como usuarios.

Por qué es importante la ciencia de la decisión

Este artículo de K.V. Rao explica cómo la ciencia de datos ayuda a las grandes empresas a tomar decisiones importantes y por qué es una herramienta esencial para las empresas del futuro.

Fuentes

Read Next

Notes illustration

Eager to learn about how behavioral science can help your organization?