Bot or Not? El algortimo de Twitter para identificar usuarios spam

En 2011, un equipo de la Universidad de Texas llevó a cabo un análisis para atrapar a los usuarios de Twitter “no humanos” que estaban contaminando la red social de microblogging.

Su enfoque para considerar si una cuenta era spam se basaba en el contenido publicado, que generalmente era sin sentido ni interés para el usuario humano. Cualquier cuenta que haga RT a este contenido, seguramente sea un usuario no-humano de Twitter, o también conocido como un robot (bot) social.

El resultado sorprendió a muchos observadores debido a la gran cantidad de cuentas de no humanos que estaban activas. Estos robots fueron en general poco sofisticado y simplemente retuiteban cualquier contenido que encontraban.

Desde entonces, los robots sociales han avanzado. Buscan a personas populares e influyentes, los siguen y capturan su atención mediante el envío de mensajes. Estos robots pueden identificar palabras clave y encontrar contenido en consecuencia, y algunos incluso pueden responder preguntas utilizando algoritmos en lenguaje natural. Eso hace que la identificación de los robots sociales mucho más difícil.

El investigador Emilio Ferrara y sus amigos de la Universidad de Indiana en Bloomington, han desarrollado una forma de detectar sofisticados robots sociales y distinguirlos de los usuarios humanos ordinarios.

Se trata del algoritmo Bot or Not?, creado para extraer datos, en busca de diferencias significativas entre las propiedades de los usuarios humanos y los robots sociales. El algoritmo observó a más de 1.000 funciones asociadas a estas cuentas, como el número de tweets y retweets , el número de respuestas y menciones que recibieron cada uno, la longitud del nombre de usuario y hasta la edad de la cuenta.

Resulta que hay diferencias significativas entre las cuentas humanas y cuentas bots, y es que éstos últimos tienden a retweetear con mucha más frecuencia que los seres humanos, además de tener nombres de usuario largos y cuentas ‘jóvenes’. Por el contrario, los seres humanos reciben más respuestas y menciones.

En conjunto, estos factores crean un tipo de huella digital que se puede utilizar para detectar los robots. “Bot or not? logra precisión de detección muy prometedor”, dicen Ferrara y amigos.

Sin embargo, es una tarea que puede no resultar precisa al 100%. Con sólo 140 caracteres, las limitaciones comunicativas en Twitter resultan significativas; es mucho más fácil para un ordenador parecrear el comportamiento de un humano siendo su espacio de diálogo tan limitado.

Para los interesados, Ferrara y compañía han hecho su algoritmo Bot or not?  disponible en esta web. Basta con introducir el nombre de usuario del usuario de Twitter y analizará sus características y la mayoría de los mensajes recientes para determinar la probabilidad de que sea un bot social.

Yo ya he probado con mi usuario, corroborando mi condición humana en Twitter.

Bot Or Not? @LoroFDM

Lorena Falero 

Vota