Cómo predecir el futuro y reducir la incertidumbre gracias a la inferencia bayesiana (I)

martes, 9 de abril de 2019

Imagínate que regresas a casa desde San Francisco, procedente de la Conferencia RSA. Estás deshaciendo la maleta, abres el cajón de tu cómoda donde guardas tu ropa interior y, ¿qué descubres? ¡Una prenda de ropa interior que no te pertenece! Lógicamente, te preguntas: ¿cuál es la probabilidad de que tu pareja te esté engañando? ¡Teorema de Bayes al rescate!

El concepto tras el teorema de Bayes es sorprendentemente simple:

Cuando actualizas tu creencia inicial con nueva información, obtienes una nueva creencia mejorada.

Podríamos expresar este concepto, casi filosófico, con matemáticas de andar por casa de la siguiente manera:
Creencia nueva y mejorada = Creencias iniciales x Nuevos datos objetivos

La inferencia bayesiana te recuerda que la nueva evidencia te obligará a revisar tus viejas creencias. Los matemáticos no tardaron en asignar términos a cada elemento de este método de razonamiento:
  • A priori es la probabilidad de la creencia inicial.
  • La verosimilitud es la probabilidad de la nueva hipótesis basada en datos objetivos recientes.
  • A posteriori es la probabilidad de una nueva creencia revisada.
Por supuesto, si aplicas varias veces seguidas la inferencia, la nueva probabilidad a priori tomará el valor de la vieja probabilidad a posteriori. Veamos cómo funciona la inferencia bayesiana con un sencillo ejemplo, tomado de Investing: The Last Liberal Art.

Inferencia bayesiana en acción
Acabamos de terminar varias partidas a un juego de mesa con dados. Mientras guardamos el material en la caja, lanzo un dado y lo cubro con la mano. "¿Qué probabilidad hay de que haya sacado un 6?", te pregunto. "Es fácil", respondes, "la probabilidad es de 1/6".

Miro debajo de mi mano y te revelo: «Es un número par. ¿Cuál es la probabilidad de que siga siendo un 6?». Ahora actualizarás tu vieja hipótesis gracias a la nueva información, de manera que responderás que la probabilidad pasa a ser 1/3. Ha aumentado.

A continuación, aún te revelo más: «Y no es un 4». ¿Cuál será ahora la probabilidad de un 6? Una vez más, necesitas actualizar tu última hipótesis con la nueva información y llegarás a la conclusión de que la nueva probabilidad es 1/2, Ha vuelto a aumentar. ¡Enhorabuena! ¡Acabas de realizar un análisis de inferencia bayesiana! Cada nuevo dato objetivo te ha obligado a revisar tu probabilidad original.

Analicemos, armados con esta fórmula la presunta infidelidad de tu pareja.

Cómo aplicar la inferencia bayesiana para descubrir si tu pareja te es infiel
Volvamos a la pregunta del inicio: ¿te engaña tu pareja? La evidencia es que has encontrado ropa interior extraña en tu cajón (RI); la hipótesis que te interesa evaluar es la probabilidad de que tu pareja te engañe (E). El teorema de Bayes podrá aclararte esta sospecha, siempre y cuando sepas (o estés dispuesto a estimar) tres cantidades:
  1. ¿Cuál es la probabilidad de que si tu pareja te engaña aparezca ropa interior en tu cajón, Pr(RI|E)? Si te está engañando, es bastante fácil imaginar cómo llegó esa ropa interior a tu cajón. Por otra parte, incluso (y quizás especialmente) si te está engañando, puedes esperar que tu pareja sea más cuidadosa. Digamos que la probabilidad de que aparezca esa prenda si te está engañando es del 50%, o sea, Pr(RI|E) = 0,50.
  2. ¿Cuál es la probabilidad de que aparezca ropa interior en tu cajón si tu pareja no te engaña, Pr(RI|¬E)? Podría ser que en secreto compra ropa del otro sexo y se la pone cuando tú no estás, cosas más raras se han visto. Podría ser que una pareja platónica suya, en quien confías plenamente, se haya quedado a dormir una noche. Podría ser un regalo para ti que se olvidó de envolver. Ninguna de estas teorías es intrínsecamente insostenible, aunque recuerdan a esas viejas excusas sobre el perro que se comió tus deberes. Colectivamente, puedes asignarles una probabilidad del 5%, o sea, Pr(RI|¬E) = 0,05.
  3. Por último y más importante, necesitas la probabilidad a priori. ¿Cuánto creías en la infidelidad de tu pareja antes de encontrar la ropa interior desconocida en tu cajón, Pr(E)? Por supuesto, ahora que has descubierto la prenda misteriosa te resultará difícil ser completamente objetivo. Idealmente, establecerás tu probabilidad a priori antes de comenzar a examinar la evidencia. Afortunadamente, a veces es posible estimar este dato empíricamente. En concreto, según las estadísticas, aproximadamente el 4% de las parejas casadas engañan a sus cónyuges en un año dado. Esta es la tasa base, así que la estableces como tu probabilidad a priori: Pr(E) = 0,04. Obviamente, la probabilidad de que no te viniera engañando será Pr(¬E) = 1 − Pr(E) = 0,96.
Asumiendo un buen trabajo en la estimación de estos valores, ya solo falta aplicar el teorema de Bayes para establecer la probabilidad a posteriori. Para facilitar los cálculos, asumamos un grupo de 1.000 parejas, ilustrado como el rectángulo grande verde en la siguiente imagen. Es fácil ver que, si 40 de cada 1.000 individuos engañan a su pareja, y si de éstos, la mitad olvidan ropa interior de su amante en el cajón de su pareja, 20 personas habrán olvidado ropa interior (el grupo 4). Por otro lado, de las 960 de cada 1.000 personas que no engañan a su pareja, el 5% habrán dejado también por error una ropa interior en el cajón de su pareja, o lo que es lo mismo, 48 personas (el grupo 2). Sumando ambas cantidades resulta que habrán aparecido 68 prendas interiores misteriosas repartidas por los cajones de las parejas (grupo 2 + grupo 4).


Por lo tanto, si encuentras en tu cajón una prenda interior sospechosa, ¿cuál es la probabilidad de que tu pareja te engañe? Será la proporción entre las prendas encontradas cuando las parejas son infieles (4) divididas entre las prendas totales encontradas, tanto de parejas que engañan como que no (2 + 4). Sin necesidad de hacer ningún cálculo, salta a la vista que una prenda extraña será más probable debido a una pareja fiel que a una infiel. De hecho, el valor exacto de la probabilidad a posteriori es: Pr(E|RI) = 20/68 ≈ 29%.

También podemos recoger matemáticamente las proporciones de la imagen de la figura anterior en la famosa ecuación de Bayes:


Sustituyendo los valores numéricos correspondientes, llegamos una vez más a la probabilidad de que tu pareja te engañe: ¡sólo del 29%! ¿Cómo obtienes este resultado sorprendentemente bajo? Porque has partido de una baja probabilidad a priori (tasa base) de infidelidad. Aunque sus explicaciones de cómo ha podido llegar esa ropa hasta tu cajón son más bien inverosímiles, partiste de la premisa de que tu pareja era fiel, lo que tiene mucho peso en la ecuación. Lo cual resulta algo contraintuitivo, pues ¿no es esa ropa interior en tu cajón prueba de su culpabilidad?

Las heurísticas de nuestro Sistema I, adaptadas para los juicios rápidos e intuitivos, nos impiden llegar a las mejores conclusiones probabilísticas basadas en la evidencia disponible. En este ejemplo, prestamos una atención desmedida a la evidencia (¡ropa interior extraña!) y olvidamos la tasa base (sólo el 4% engaña). Cuando nos dejamos deslumbrar por los nuevos datos objetivos a costa del conocimiento previo, nuestras decisiones serán consistentemente subóptimas.

Pero tú eres un profesional bayesiano, ¿verdad? Le concederás a tu pareja el beneficio de la duda. Eso sí, puedes advertirle de que en el futuro no se le ocurra comprarse ropa interior del otro sexo, ni regalarte ropa interior, ni invitar a pasar la noche a parejas platónicas. En estas condiciones, la probabilidad de que en el futuro vuelva a aparecer ropa interior en tu cajón si no te engaña será como mucho del 1%, o sea, Pr(RI|¬E) = 0,01.

¿Qué pasa si a los pocos meses vuelve a aparecer ropa interior extraña en tu cajón? ¿Cómo cambiará ahora tu creencia en su inocencia? A medida que va apareciendo nueva evidencia, un bayesiano actualizará su estimación inicial de la probabilidad. La probabilidad a posteriori de que te engañara la primera vez, que calculamos en un 29%, pasará a ser la probabilidad a priori de que te esté engañando esta segunda vez. Los bayesianos adaptan su evaluación de los eventos probabilísticos futuros a la luz de la nueva evidencia. Si reintroduces en la fórmula anterior las nuevas variables, Pr(E) = 0,29 y Pr(RI|¬E) = 0,01, la nueva probabilidad a posteriori de que tu pareja te la esté pegando será 95%. Ahora sí, ¡ya puedes ir pidiendo los papeles del divorcio!

Este ilustrativo ejemplo, tomado de The Signal and the Noise: The Art and Science of Prediction, viene a demostrar que:
  • Nos dejamos deslumbrar por la evidencia cuando es muy vistosa, vívida y emocional.
  • Cuando nuestras creencias iniciales son muy robustas, pueden resultar sorprendentemente impermeables a la nueva evidencia en su contra.
En la segunda parte de este artículo, exploraremos varios estudios de caso donde se aplica con éxito la inferencia bayesiana a la ciberseguridad.

Gonzalo Álvarez Marañón
Innovación y laboratorio en ElevenPaths

No hay comentarios:

Publicar un comentario