El MIT presenta una inteligencia artificial que predice el 85% de los ataques... pero que no es tan artificial

miércoles, 4 de mayo de 2016

Se ha publicado en bastantes medios que el MIT ha presentado un sistema de supuesta inteligencia artificial que detecta el 85% de los ataques. Se habla de que es tres veces mejor que “el resto” y que reduce en 5 el número de falsos positivos. Se intuye pues un gran avance de la inteligencia artificial conseguido por científicos de renombre. Pero como de costumbre, el diablo está en los detalles. Veamos lo que dice el documento científico más que los medios.

Lo han bautizado AI². Y no porque sea una inteligencia artificial superior, sino porque junto con la AI (Artificial Intelligence), existe un importante grado de "Analyst Intuition", esto es, un ser humano que clasifica, analiza, vela por el bueno funcionamiento del sistema y potencia y mejora los resultados. ¿Es trampa introducir a un analista para mejorar sistemas de inteligencia artificial? Ni mucho menos. De hecho, los analistas siempre deben estar ahí cuando se trata de extraer y aprovechar información de los datos. Lo que han hecho en el MIT es mejorar el trabajo de estos analistas. Que no es poco, pero es necesario dejar claro que el trabajo realizado por el MIT (y una startup llamada PatternEx) no supone una mejora "per se" del aparataje matemático tras la inteligencia artificial como tal, sino de una sustancial mejora de la interacción entre el analista y los algoritmos de machine learning para que el humano se sienta cómodo, su trabajo repercuta eficazmente en los algoritmos, y así estos funcionen de forma óptima.

El sistema

Hoy por hoy, la inteligencia artificial se identifica mucho con la minería de datos, y a su vez, con la moda del big data. Muchos disponen de bases de datos gigantes, pero eso no es big data. Eso es una base de datos gigante donde buscar (que por otro lado, no tiene nada de malo si es lo que se quiere). Solo podrá asegurar que aprovecha su big data quien realice una eficaz minería de datos aplicando técnicas de machine learning, por ejemplo, y podrá exhibir su éxito mucho más incluso quien aproveche esta información para detectar patrones con la mínima interacción humana. Como colofón, quien sea capaz de predecir tendencias será quien explote eficazmente el big data. Muchos sistemas se encuentran en alguno de estos estadios más o menos avanzados pero, incluso asentados en alguno de ellos, lo estará de forma precaria si el coste en falsos positivos o en infraestructura no lo hace sostenible. Este es, a grandes rasgos, el panorama.

Lo que presenta el MIT es data mining con técnicas de marchine learning más que conocidas (de hecho, el propio documento dice "state of the art machine learning"). Lo cierto es que parece que no se innova en la inteligencia artificial. Este vídeo lo resumen muy bien.



Se trata de un sistema de aprendizaje continuo con cuatro componentes clave:

  • Una plataforma de análisis de datos. Aquí se toma la información en bruto, se procesa… nada raro.
  • Un sistema detector de anomalías o casos atípicos (aprendizaje no supervisado). Aquí es donde se pone el mayor énfasis matemático, pero por combinación de técnicas conocidas. Trata de traducir las anomalías en probabilidades que superen un umbral.
  • Un mecanismo para obtener feedback por parte de un humano. Aquí también es donde se apoya buena parte de la investigación, introduciendo y homogeneizando el concepto de "scoring" para que el analista pueda clasificar eficazmente sin sesgos.
  • Un sistema de aprendizaje supervisado (que mejora continuamente gracias a la entrada del analista).

Fuera de formalismos, el sistema es relativamente sencillo. En general, existen dos métodos de marchine learning: el supervisado, donde se sabe qué se debe buscar, (por ejemplo malware y goodware) y se trata de buscar reglas generales o elementos (características) que definan estas clases. Por otro lado, el no supervisado, donde no se conoce qué se busca (no está "etiquetado"), sino que se intenta detectar qué características definen grupos más o menos homogéneos, por ejemplo.

Este sistema lo que hace es tomar los datos en bruto y pasarlos por un sistema no supervisado, o sea, no sabe lo que busca exactamente, solo que sea una anomalía. Trazar una línea entre lo normal y anormal sin saber en base a qué. Esto habitualmente es muy tendente a falsos positivos que deben ser validados por analistas (sobre todo, cuando las anomalías ocurren en un porcentaje muy pequeño con respecto a los datos obtenidos). Hasta aquí, este modelo de tratamiento de datos se lleva a cabo en muchos sistemas. Reducir el coste humano en este proceso se busca desde siempre. Por ejemplo, es habitual en las casas antivirus intentar reducir al máximo en análisis manual y construir en lo posible sistema de machine learning lo más preciso posible que derive en el menor número de muestras que llegan a un analista humano. Cuando el analista saca nuevas conclusiones, el sistema se retroalimenta con mejores reglas para intentar que no se vuelvan a necesitar sus servicios. Hasta aquí, el MIT no ha innovado demasiado.

Lo que en realidad revela este sistema de IA² es un mecanismo inteligente para ponérselo más fácil a estos analistas. Lo que a nuestro juicio resulta innovador es esta frase extraída del documento: "Combinamos tres sistemas de detección de anomalías: Replicator Neural Networks, Density-based outlier analysis y Matrix Decomposition-based outlier analysis". Todas técnicas ya conocidas destinadas a reducir el número de supuestas anomalías (o singularidades) que más tarde, un analista tendrá que validar… con lo que en realidad, no son tres técnicas sino cuatro porque el analista, al final de la cadena (o en el medio, según se vea como algo cíclico) es que el juzga finalmente.

De hecho, no deberíamos centrar tanto el discurso del MIT en el porcentaje de detección o predicción (aunque el uso de uno u otro verbo importe) sino en su verdadero punto fuerte: presentar al analista una información mucho más masticada y digerible: muchas menos alertas, mucho mejor presentadas. El grueso del documento está centrado en cómo han conseguido que se presente poca información, y muy homogénea.

¿Resultado?

Gracias a IA², el analista es capaz de analizar y clasificar un número abarcable de anomalías de forma correcta al día. Esto es, un sistema de machine learning supervisado (sí que se sabe qué se clasifica) que se retroalimenta a su vez, con lo que los resultados mejoran ostensiblemente en el tiempo.

Así, entre una búsqueda de anomalías eficaz; una presentación adecuada y suficientemente escueta para el analista; y un tratamiento eficiente de su feedback con más machine learning; se obtiene el resultado en el titular: un 85% de detección (o predicción, no queda claro), lo que significa ser 3.41 veces mejor y 5 menos veces falsos positivos a la hora de procesar millones de líneas de logs. Pero... ¿mejor con respecto a qué?

Comparación de IA2 contra un machine learning no supervisado simple.
El "presupuesto" es en realidad el número de alertas que digiere al día el sistema o el analista según el caso.

La comparación de ser 3.41 veces mejor es curiosa. ¿Mejor que qué? En este caso, mejor que los métodos no supervisados tradicionales… Y esto, parece, no tiene excesivo mérito. Los métodos tradicionales no supervisados no son muy buenos en cuestión de detección o aprendizaje de ataques de este tipo, de ahí que también recurran a analistas para mejorarlo. Con lo que la comparación quizás resulte injusta.

Conclusiones

Aunque el machine learning se utilice en el campo de la inteligencia artificial, este sistema tiene más de machine learning tradicional y minería de datos que de inteligencia artificial como el imaginario colectivo pueda suponer. En estos casos, la figura del analista resulta poco menos que imprescindible, desde siempre. Desde la concepción y puesto a punto del sistema (donde un experto analista debe aconsejar y guiar a los entrenadores de algoritmos en el caso de análisis supervisado) hasta las fases de continua mejora y puesta a punto. Ya sea con las técnicas de inteligencia visual donde la manera en la que se representan los datos pueden hacer que, de un vistazo en apenas un segundo, un analista concluya algo que matemáticamente resultaría complejo; ya sea con el sistema propuesto por el MIT, donde se apunta a descongestionar al analista y recoger inteligentemente su clasificación final.

No podemos pensar en el big data como un maremágnum de información automatizada y complejo aparataje matemático, porque perderá su objetivo si los atacantes (que al fin y al cabo son humanos) conocen cómo esconderse (en el caso del malware, por ejemplo) o las anomalías son tan escasas que pasan desapercibidas para cualquier sistema analítico. El big data y su explotación será tan bueno como los humanos que lo operan y, si somos los suficientemente hábiles como para estrechar el alcance de toda esta información lo suficiente para que quepa en nuestra capacidad humana, tomaremos lo mejor de la base de datos y se aprovechará al máximo. Al fin y al cabo, el juego del atacante y defensor, por muchas capas de abstracción, inteligencia artificial, big data y otras palabras de moda que se interpongan entre ellos, no deja de ser una lucha entre capacidades humanas. 

Sergio de los Santos
ssantos@11paths.com

No hay comentarios:

Publicar un comentario