problem / solution board with post-its

El error que cometen casi la mitad de los gerentes de producto

read time - icon

0 min read

Nov 21, 2022

Nadie sabe mejor que los jefes de producto que el comportamiento de los usuarios es algo voluble. Sea cual sea el tipo de producto que estemos construyendo, es un hecho que los usuarios se comportarán de formas inesperadas: caerán presa de sesgos cognitivos, contradecirán sus propias preferencias declaradas, etcétera. Por eso los datos y las pruebas con usuarios son el pan de cada día en el diseño de productos.

Sin embargo, después de innumerables misiones dedicadas a infundir conocimientos sobre el comportamiento en los productos digitales, me he dado cuenta de que los propios gestores de productos son igual de propensos a cometer errores cognitivos.

De hecho, cuando TDL analizó esta cuestión recientemente, descubrimos que cuatro de cada diez jefes de producto toman la misma decisión irracional sobre cómo interpretar los datos de las pruebas de usuario.

¿Qué opción sería ésa? Siga leyendo...

Imagina esto

Hace poco realizamos una encuesta informal en nuestra página de LinkedIn para saber cómo responderían los jefes de producto a la siguiente situación hipotética:

"Imagina que tú y tu equipo acabáis de lanzar la versión 1 de un producto. El desarrollo inicial fue un torbellino: estuvisteis haciendo sprints para aseguraros de que el producto se lanzaba a tiempo y no pudisteis hacer todas las pruebas que os hubiera gustado. Ahora su equipo está considerando hacer un cambio de diseño, y usted hace algunas pruebas rápidas de usuario para ver si hace una diferencia significativa para sus KPIs.

Una vez recopilados todos los datos, realizamos los análisis estadísticos y descubrimos que el cambio de diseño que estamos considerando tiene un valor p de 0,3. En otras palabras, no es un efecto significativo con un 95% de confianza, pero hay una tendencia positiva. En otras palabras, no es un efecto significativo con un 95% de confianza, pero hay una tendencia positiva. ¿Qué hay que hacer?

Los encuestados podían elegir entre tres opciones:

  1. Decidir no aplicar el cambio
  2. Aplicar el cambio de todos modos
  3. Otra cosa

Al final, recibimos 90 respuestas a nuestra encuesta.

Resultados

Descubrimos que aproximadamente el 40% de los encuestados eligieron una acción que yo consideraría irracional. Como académico en recuperación reconvertido en profesional, esta situación es también una espina que siempre tengo clavada, ya que una y otra vez he visto a personas comportarse instintivamente de forma irracional cuando se encuentran con ella.

Pero antes de entrar de lleno en mi perorata o en nuestros resultados, demos un paso atrás y repasemos lo que significan realmente los valores p, así como el concepto más amplio de significación estadística.

¿Qué son los valores p?

Como descripción general, si descubrimos que un resultado es estadísticamente significativo, estamos, con un nivel de confianza determinado, descartando el azar como impulsor de una observación interesante y atribuyéndolo, en cambio, a nuestra intervención (por ejemplo, un fármaco, un mensaje o una página de destino reestructurada). En otras palabras, no estamos comunicando certeza; simplemente estamos diciendo que si, por ejemplo, p<0,05 en una prueba A/B, estamos más del 95% seguros de que una opción es superior a otra.

Tomémonos también un momento para reflexionar sobre lo que significa que un resultado no se considere estadísticamente significativo. Tómese un momento y piense en lo siguiente: Si realizamos un experimento y no alcanzamos nuestro límite de p<0,05, ¿qué significa eso?

¿Significa esto que, en algún otro nivel de certeza, estamos seguros de que una opción es peor que la otra?

Por supuesto que no. Estar por debajo de nuestro nivel de confianza objetivo significa precisamente eso: que tenemos menos confianza en la superioridad de una opción sobre otra. Por sí solo, no significa que pensemos que una opción es peor, sino que carecemos de la confianza suficiente para calificarla de mejor.

Significación estadística en el mundo académico

Pasemos ahora a la siguiente pieza del rompecabezas. ¿Qué tiene de especial p<0,05? ¿Por qué nos importa el 95% de confianza?

En este caso, el contexto importa. Si soy un investigador académico, (con suerte) he dedicado mi vida a la búsqueda de algo parecido a la verdad. Mi área de interés puede ser cualquier cosa, desde los comportamientos de apareamiento de las ranas de lluvia africanas (son muy monas. Hágase un favor y búsquelas en Google, a ser posible cuando no se estén apareando) hasta la competencia a dos bandas en los entornos de compra en línea.

Sea como fuere, mi propósito es, en última instancia, demostrar algo novedoso e interesante sobre el mundo y atribuirlo a algo distinto del azar.

Entonces, ¿existe algún texto erudito divino que afirme que el 95% de confianza es el único punto de referencia verdadero para la certeza académica? Por supuesto que no. Podríamos haber elegido el 96% o el 94% como nuestro patrón oro. Sin embargo, con el objetivo anterior en mente, se deduce que sólo queremos ser muy particulares sobre los resultados que estamos dispuestos a aceptar, y el 95% de confianza suena bastante razonable.

Ahora bien, a efectos del resto de este artículo, demos por sentado lo siguiente: En el contexto de la investigación científica pura, los umbrales altos de certeza tienen mucho sentido. En la práctica, esto es más controvertido de lo que cabría suponer, ¡pero eso es tema para otro día!1

En resumen

  • No alcanzar un umbral de confianza no significa que una opción sea peor. Significa que no tenemos suficiente confianza en que una opción sea superior.
  • El 95% de confianza es, en última instancia, arbitrario, pero tiene bastante sentido si se busca la verdad.

Por qué los jefes de producto deberían preocuparse menos por los valores p**

** p<.01

Dejemos a un lado a los investigadores y centrémonos en los profesionales, concretamente en los jefes de producto. ¿El objetivo de un gestor de productos es buscar una verdad objetiva? Yo diría que no. Puede ser una aspiración, pero en última instancia un gestor de producto es responsable de garantizar que los esfuerzos de un equipo de producto se traduzcan en mejoras en lo que respecta a la capacidad del producto para cumplir los objetivos estratégicos y satisfacer las necesidades del usuario (o cualquiera que sea su definición, siempre que estemos de acuerdo en que los académicos y los gestores de producto tienen objetivos diferentes).

Volvamos a nuestra situación hipotética: usted, el jefe de producto, probó un cambio, observó una tendencia de mejora del rendimiento, pero al final descubrió que p = 0,3. Esto significa que tiene aproximadamente un 70% de confianza en que la mejora observada es el resultado de su cambio y no una casualidad. Esto significa que tiene un 70 % de confianza en que la mejora observada se debe al cambio y no al azar.

En nuestra encuesta, vimos el siguiente desglose de respuestas.

Survey breakdown: Roughly 38% indicated they would not ship the change, while 42% indicated that they would.

Aproximadamente el 38% indicó que no enviaría el cambio, mientras que el 42% indicó que sí lo haría. Entonces, ¿quién tiene razón? ¿La tiene alguien?

Desglosémoslo de la siguiente manera.

  • Tenemos dos opciones:
    undefinedundefined
  • Tenemos dos determinaciones estadísticas, cada una con una probabilidad asociada
    indefinidoindefinido

Así, podemos visualizar los posibles resultados de la siguiente manera:

Si su responsabilidad es asegurarse de que está distribuyendo la mejor versión posible de su producto, ¿debemos aplicar el cambio, aunque no hayamos alcanzado el umbral supuestamente mágico de p<0,05? En mi opinión, la respuesta correcta es un sí rotundo y entusiasta. Mientras tengamos una tendencia positiva, el único resultado perjudicial en nuestra matriz se produce si no realizamos el envío. Si lo hacemos, en el peor de los casos nos quedaremos con un producto indistinguible del anterior.

Para ilustrar otro punto, permítanme ahora escalar este diagrama para reflejar nuestro nivel de confianza en nuestros posibles resultados.

El gráfico anterior ilustra que, en la práctica, con un nivel de confianza del 70%, lo más probable es que hayamos mejorado nuestro producto o que hayamos perdido la oportunidad de hacerlo. En este caso, ¡por supuesto que queremos seguir enviando!

¿Y si sólo tenemos un 30% de confianza? ¿Qué ocurre entonces?

La composición de las posibles implicaciones de los productos no ha cambiado. Lo único que ha cambiado es la probabilidad de que caigamos en un cuadrante concreto. Esto refuerza la idea de que, mientras tengamos una tendencia positiva, la única opción que podemos anticipar que conduciría a un resultado perjudicial (en este caso, una oportunidad perdida) es no enviar el cambio.

Voy a moderar un poco mi entusiasmo admitiendo que no estoy teniendo en cuenta otras consideraciones cruciales (por ejemplo, el coste de oportunidad de asignar recursos de desarrollo a un cambio de baja confianza), pero creo que el punto sigue siendo que los valores p en sí mismos nunca son suficientes para descalificar un cambio que genera una tendencia positiva.

Ahora bien, obviamente el cambio podría ser peor, y nuestros datos son insuficientes para demostrarlo. Como profesionales, a menudo nos enfrentamos a información incompleta o de menor calidad de la que nos gustaría. En esos casos, nuestra encuesta de pulso sugiere que el 38% de los jefes de producto pueden pensar que lo prudente es no hacer nada, pero eso es irracional. Es nuestra responsabilidad tomar la mejor decisión posible con la información que recibimos.

¿Por qué nos atascamos en los valores p?

¿Por qué lo hacemos? Una forma de entender este comportamiento es a través de la lente del sesgo de anclaje. Se trata de nuestra tendencia a confiar demasiado en un dato a la hora de tomar una decisión, utilizándolo como punto de referencia para juzgar todos los datos posteriores. La investigación ha demostrado que incluso podemos anclarnos en cifras que no tienen nada que ver con la decisión que estamos tratando de tomar.

Cuando se trata de pruebas de usuario, podemos pensar en ese valor p de 0,05 como un ancla inútil. Si dejamos de lado el concepto de significación estadística y nos centramos en lo que tiene más probabilidades de producir el mejor resultado para nuestro producto, un valor p de algo así como 0,7 debería ser más que suficiente para justificar el envío de un cambio. Pero cuando los jefes de producto se obsesionan con superar el umbral arbitrario del 95% de confianza, acaban perdiéndose la visión de conjunto.

Desanclarnos

Aunque no podemos evitar por completo el sesgo de anclaje, hay una serie de estrategias basadas en pruebas que podemos utilizar para ayudar a disminuirlo. Las investigaciones demuestran que hacer una pausa para evaluar hasta qué punto un anclaje es realmente relevante para la situación en cuestión2 y contemplar otras opciones que puedan funcionar mejor3 puede ayudar a reducir los efectos de este sesgo.

Antes incluso de poner en marcha una prueba de usuario, los equipos de producto deben reunirse para discutir qué umbrales de significación estadística creen que deben alcanzarse antes de seguir adelante con un cambio, y establecer un plan sobre cómo proceder si un cambio propuesto no alcanza esos puntos de referencia. Estos objetivos pueden variar enormemente en función de aspectos como el tamaño de la muestra, el nivel de esfuerzo necesario para aplicar un cambio, los efectos previstos en la experiencia del usuario, etc.

En última instancia, lo importante es que los equipos no se ciñan a normas poco realistas o inútiles en la práctica, sino que lleguen a un entendimiento común de lo que constituiría un resultado significativo en su contexto particular.

Un cambio significativo

Me doy cuenta de que a algunos lectores les puede parecer que estoy argumentando en contra de mantener un cierto nivel de rigor científico en el diseño de productos. En cierto sentido es cierto, pero sólo porque creo que es poco realista y un poco tonto importar los estándares de la investigación académica a un entorno aplicado.

Si los jefes de producto tienen la certeza razonable de que la aplicación de un cambio mejorará los resultados de los usuarios, y no tienen motivos para creer que dicho cambio será perjudicial, no debemos desechar una idea perfectamente buena sólo porque no haya alcanzado algún punto de referencia arbitrario.

Al fin y al cabo, en nuestro escenario hipotético anterior, la versión original del producto se elaboró con prisas y se distribuyó con un mínimo de pruebas por parte de los usuarios. Aunque la v2 no sea perfecta, si está respaldada por más datos que la v1, lo más probable es que sea mejor. De hecho, son significativamente mejores.

References

  1. Cowles, M., y Davis, C. (1982). On the origins of the .05 level of statistical significance. American Psychologist, 37(5), 553-558. https://doi.org/10.1037/0003-066x.37.5.553
  2. Mussweiler, T., Strack, F., & Pfeiffer, T. (2000). Overcoming the Inevitable Anchoring Effect: Considering the Opposite Compensates for Selective Accessibility. Personality and Social Psychology Bulletin, 26(9), 1142-1150. https://doi.org/10.1177/01461672002611010
  3. Zenko, M. (2018, 19 de octubre). Los líderes pueden tomar decisiones realmente tontas. Este ejercicio puede arreglarlo. Fortune. https://fortune.com/2018/10/19/red-teams-decision-making-leadership/amp/

About the Author

Read Next

Notes illustration

Eager to learn about how behavioral science can help your organization?