El ritmo de publicación en Twitter permite detectar cuentas robot o spam

Un estudio del Imperial College de Londres analiza el origen de los tuits sin revisar su contenido


El ritmo de publicación de tuits, es decir, las horas del día a las que se publican, y su cantidad, permiten distinguir si una cuenta de Twitter está gestionada por una persona, un robot, o se trata de una cuenta corporativa. Así lo demuestra un método diseñado por investigadores del Imperial College de Londres, que en lugar de analizar el contenido de los tuits en busca de spam, como es habitual, propone analizar los tiempos de publicación. Por Carlos Gómez Abajo.


08/07/2013

Frecuencia de publicación de tuits para una cuenta personal (azul), corporativa (rosa) y robótica (amarillo). Fuente: PLoS ONE.
El ritmo de publicación de tuits puede diferenciar si la controla una persona, una cuenta corporativa, o un robot. Así lo demuestra una investigación del Imperial College de Londres (Reino Unido), publicada en PloS ONE la semana pasada.

Los investigadores analizaron más de 160.000 tuits de cuentas tanto personales, como pertenecientes a grandes corporaciones, como controladas por robots. Los períodos de actividad alta o baja en Twitter y el tiempo entre tuits sucesivos permiten distinguir los tres tipos de cuentas entre sí, con aproximadamente un 83% de precisión.

Además, los investigadores también han desarrollado un método para predecir cuándo se publicará un nuevo tuit, sabiendo cuándo se publicó el último.

Como era de esperar, informa SINC, el estudio comprobó que las cuentas corporativas tuitean más durante las horas de trabajo, las cuentas personales son más activas en las tardes y noches, y las cuentas robot o bien tuiteataban a intervalos regulares durante el día, o tenían arrebatos repentinos de actividad en una o unas pocas horas específicas.

El autor principal, Aldo Faisal, concluye: "La identificación y clasificación de los tipos específicos de usuarios de Twitter pueden ser útiles para una variedad de propósitos, desde las ciencias sociales computacionales, las campañas publicitarias y las políticas, hasta el filtrado de spam, la persecución de los robos de identidad y la detección de cuentas maliciosas."

Imagen: psd. Fuente: Flickr.
Ventajas

La principal ventaja de este método para la detección de spam es, según los investigadores, que abarata y acelera el proceso, en comparación con otros métodos, que se basan en el análisis de contenido.

En la detección de propaganda también es más ventajoso, al no centrarse en el texto sino simplemente en los tiempos de publicación.

Uno de los métodos desarrollados para perseguir el spam en Twitter es el de Juan Martínez-Romo y su equipo, de la Universidad Nacional de Educación a Distancia (UNED).

La herramienta clasifica correctamente el 93,7% de los mensajes maliciosos y el 89,3% de los mensajes válidos. Solo el 6,3% de tuits válidos fueron clasificados erróneamente como basura en el experimento.

La investigación utiliza modelos del lenguaje para detectar el spam y no analiza perfiles de usuarios sino tuits. El método analiza también las páginas webs que se enlazan en los tuits. Por ejemplo, si un tema popular es David Bowie, y el enlace de la página web de un tuit lleva a un portal de productos farmacéuticos, ese mensaje sería clasificado como spam.




Artículo leído 1554 veces



Más contenidos