Un sistema de la UPM detecta fraudes o 'spam' en flujos de datos en tiempo real

El modelo aprende del contexto y observa si hay patrones sospechosos


Investigadores de la Universidad Politécnica de Madrid (UPM) han desarrollado un sistema de análisis de flujos masivos de datos capaz de aprender del contexto y de detectar, generar, almacenar y reutilizar los patrones recogidos en los datos que ya se han analizado. De este modo, se puede predecir el momento en el que estos patrones volverán a aparecer e identificar cambios en el contexto que ayuden a detectar fraudes o 'spam'. Por Carlos Gómez Abajo.


29/03/2016

Funcionamiento del sistema. Fuente: UPM.
Los avances tecnológicos han provocado la proliferación de aplicaciones que continuamente generan flujos de datos (data stream), sin limitación de tamaño, y a gran velocidad, y que deben ser computados en tiempo real ante la imposibilidad de su almacenamiento.

Ante la magnitud de dicho flujo de datos, investigadores de la Escuela Técnica Superior de Ingenieros Informáticos de la Universidad Politécnica de Madrid (UPM) han desarrollado un sistema capaz de aprender del contexto y detectar, generar, almacenar y reutilizar los patrones recogidos en los datos que ya se han analizado. De este modo, se puede predecir el momento en el que estos patrones volverán a aparecer e identificar cambios en el contexto que ayuden a detectar fraudes o spam.

“Nuestro trabajo se centra en un ámbito que es punta de lanza en materia de minería de datos, en data streams”, explica Ernestina Menasalvas, del Departamento de Lenguajes y Sistemas Informáticos e Ingeniería del Software de la UPM, en la nota de prensa de ésta. “El sistema permite optimizar el desarrollo de modelos de clasificación de minería de datos reutilizando modelos similares en contextos parecidos. Todo ello mejora las capacidades de aplicar la inteligencia artificial a entornos como ciudades inteligentes, Internet de las cosas, o dispositivos móviles”.

Los cambios de contexto pueden estar originados por hechos conocidos, como aquellos asociados a la climatología o a la estación del año, o provenir de aspectos desconocidos a priori. Para predecirlos, los investigadores de la UPM desarrollaron una función de similitud basada en técnicas de lógica difusa que extiende el comportamiento básico de decisión sí/no.

La lógica difusa (también llamada lógica borrosa) se basa en lo relativo de lo observado como posición diferencial. Este tipo de lógica toma dos valores aleatorios, pero contextualizados y referidos entre sí. Así, por ejemplo, una persona que mida dos metros es claramente una persona alta, si previamente se ha tomado el valor de persona baja y se ha establecido en un metro.

“Una vez que la función determina si existen modelos de clasificación equivalentes para tratar el nuevo contexto, el sistema puede aplicar los mismos de forma directa gracias a su almacenamiento previo en un repositorio”, explica Miguel Ángel Abad, autor de la tesis en la que se exponen los resultados de este trabajo.

Aplicaciones

El mecanismo tiene aplicaciones en materia de ciberseguridad, donde la herramienta permitirá detectar patrones similares y prever ataques cibernéticos, mejorando los sistemas de detección y respuesta. También podría aplicarse a la detección de intrusiones y fraudes por vías informáticas y al desarrollo de filtros antispam.

El ahorro de recursos es otra de las ventajas que supone este sistema. “Adelantarnos al modo en que se van a comportar los datos supone un ahorro en los recursos computacionales de los dispositivos, por lo que este mecanismo es de aplicación a entornos ubicuos, caracterizados por la existencia de distintos dispositivos que operan en tiempo real y con recursos limitados”, explica Miguel Ángel Abad.

Los resultados de este trabajo se han publicado en la revista especializada Expert Systems With Applications Journal, una publicación de referencia sobre sistemas inteligentes y en su aplicación en diferentes campos.

Referencia bibliográfica:

Miguel A. Abad, Joao B. Gomes, Ernestina Menasalvas: Predicting recurring concepts on data-streams by means of a meta-model and a fuzzy similarity function. Expert Systems With Applications (2015). DOI:10.1016/j.eswa.2015.10.022.



Artículo leído 1544 veces



Más contenidos