A la caza de bots de Twitter: pistas, métodos y por qué es tan difícil detectarlos todos

8 noviembre 2016, 06:01

Publicado originalmente en Xataka

Anna Martí

En ocasiones hablamos de los bots que últimamente pretenden entrar a formar parte de nuestras costumbres, como los chat bots que han incorporado servicios como Facebook Messenger. Pero en realidad los bots sociales están activos desde hace año y son muy habituales en redes como Twitter, ¿hay herramientas para detectarlos con exactitud?

Hay algunas pistas que no dejan lugar a mucha duda con poco que observemos el supuesto perfil, como el hecho de que no haya avatar, sino el huevo que aparece por defecto al crearte una cuenta de Twitter mientras no lo personalices. Pero en ocasiones interesa ver cuánta actividad automática hay por ejemplo a la hora de medir efectos de un hashtag o una tendencia, como han intentado hacer para las campañas de Trump y Clinton según informa Recode. ¿Hasta qué punto son diferenciables de los usuarios realmente humanos y son válidos esos métodos?

Si habla como un bot y tiene aspecto de bot, es que es un bot

Como decíamos, a la hora de detectar un bot hay ciertos rasgos o pautas que nos hacen sospechar sin que precisamente tengamos tampoco demasiados conocimientos de toda esta ciencia alrededor del social media. Signos que puede que ya conozcamos y que recogieron en State of Digital, reuniendo un total de seis:

Te lo dicen directamente: hay cuentas que ya indican en su nombre de usuario o en la bio que se trata de un bot, por lo que queda claro desde un principio, como puede ser un ejemplo @CarlSaganBot o alguno de los que incluyeron en esta lista de bots recomendables de Genbeta.
Acciones demasiado instantáneas: si al twittear sobre cierto tema una cuenta interacciona a nivel de favorito, retweet o respuesta (automatizada y normalmente spam) al momento, en milésimas de segundo. Basta con entrar al perfil de la misma para comprobar por su bio, avatar y/o TL si se trata efectivamente de una cuenta bot.
Número de seguidos y seguidores: esto no es exclusivo de los bots, pero el hecho de que haya proporcionalmente muchos más seguidos que seguidores suele ser habitual en las cuentas automatizadas.
El juego follow-unfollow: si atendemos o tenemos notificaciones para saber cuándo nos sigue alguien o cuándo nos deja de seguir, quizás nos haya pasado que alguna cuenta nos sigue de manera compulsiva. Tampoco es algo exclusivo de bots (por desgracia), sino que es un método para intentar conseguir el follow-back mediante esta llamada de atención.
Avatares: otro indicador que no es exclusivo de bots, pero hace referencia a las ocasiones en las que se recurre al avatar por defecto (el huevo sobre un fondo de color) u otros avatares ya existentes para los bots, de modo que al hacer follows masivos se puede ver el mismo avatar en muchos de esos nuevos seguidores.
Twittear desde APIs: algunos clientes de Twitter permiten ver el origen de los mismos, puede que no en la vista general del TL pero sí entrando al tweet en particular. Ahí solemos encontrar las apps populares, como los clientes oficiales, pero algo que puede indicar que se trata de un bot es que en vez de éstas leemos "vía API" o algo similar.

El problema de estas indicaciones ya lo hemos visto: es una valoración en ocasiones subjetiva que puede dar lugar a falsos positivos (tildando de bot a lo que no lo es). Además, a parte del sesgo que existe en algunos casos, no sirve para hacer un rastreo de la red social en busca de los bots.

Las universidades a la caza de bots

El que hemos citado al inicio es un estudio que ha publicado recientemente la Universidad de Oxford centrado en el porcentaje de actividad de bots que han tenido sendas campañas políticas estadounidenses. Para determinar las distintas actividades se han basado en la tasa de tweets en un día, catalogando como un "alto nivel de automatización" las cuentas que publicaban al menos 50 tweets usando ciertos hashtags.

El problema de detecciones basadas en la tasa de tweets es que hay seres humanos que también pueden alcanzarla

El problema aquí ya lo aclaran ellos mismos: hay seres humanos que también pueden alcanzar esa tasa de tweets con los hashtags o el tema que sea, o simplemente haciendo retweet de todo lo que pase por su timeline con ello. Por otra parte, también puede dejar de lado los bots que están "dormidos" (en latencia) esperando a ser activados.

No obstante, éste no es el primer intento de identificar bots ni mucho menos por parte de una universidad. Ya en 2011 la Universidad de Texas intentó cazar cuentas automatizadas que se dedicaban a publicar spam, recurriendo a cebos (honeypots) que hiciesen esto mismo (publicar spam) y detectando los retweets que se hiciesen, con el planteamiento de que "ningún humano estaría interesado en ello" e identificando finalmente unas 36.000 cuentas bots, como recordaban en MIT Tecnology Review.

Lo hacían, de hecho, para comentar otro intento por parte de otro centro, la Universidad de Indiana. Concretamente el equipo de Emilio Ferrara, que en base a lo detectado en 2011 y a cuentas humanas crearon un algoritmo llamado Bot or Not?. Dicho algoritmo (aún disponible) analizaba unas 1.000 características de las cuentas, como el número de tweets publicados, respuestas o la longitud del nombre de usuario.

Parte de las gráficas que muestra Bot or Not, usando la cuenta bot de ejemplo en la propia página "@Dtufreak".

Por regla general, los bots tienden a hacer más retweets y tienen nombres de usuario más largos (y más aleatorios), mientras que los seres humanos tenemos más interacciones

Esto es porque, pro ejemplo, por regla general los bots tienden a hacer más retweets y tienen nombres de usuario más largos (y más aleatorios), mientras que los seres humanos tenemos más interacciones (respuestas o menciones). Pero pese a ser una técnica mejorada con respecto a la de 2011 también tiene limitaciones, como cuando un usuario humano usa algún bot (o es hackeada por), el propio Ferrara admitía la dificultad de detectar o diferenciar esos casos.

Detectar esas anomalías es imposible actualmente.

Twitter lo intenta, pero tampoco puede

La propia Twitter ya puso en marcha su sistema para atajar el problema de que los bots cada vez fuesen más abundante. Así, en 2014 incorporaban BotMaker, que según aseguraron había logrado reducir en un 40% los registros de spam desde su puesta en funcionamiento, actuando junto a los reportes de los usuarios.

No obstante, la lucha contra los bots/spam no parece igual de consistente en todos los mecanismos de la red, dado que en ocasiones estos bots aparecen en las sugerencias de cuentas a seguir, como mostraba Daniela Hernandez en Fusion.net al hablar de la dificultad en detectar y erradicar los bots en Twitter. También incluye el testimonio de Dan Tentler, CTO de Carbon Dynamics, que trabajó en Twitter y propuso otra herramienta, pero finalmente no fue llevada a cabo.

En este caso se basaba en el escrutinio de los nombres de usuarios que tuviesen en común la misma dirección IP, así como las direcciones IP asociadas a fallos de acceso a Twitter. De este modo Twitter podría haber tenido un sistema para detectar si las nuevas cuentas formaban parte de una creación masiva, según opina Tentler.

Por otro lado, están las iniciativas de terceros. Con el lema de "Exponiendo fraudes en Twitter desde 2012", Twitter Audit es una de las herramientas más populares para determinar el porcentaje aproximado de seguidores humanos y no humanos que tenemos. Si optamos por el servicio gratuito desde su web, al poner cualquier usuario de Twitter nos muestra el porcentaje de tipo de seguidores según parámetros como el número de tweets, la fecha del último tweet publicado o ratios del número de seguidores.

Uno de los gráficos que muestra TwitterAudit (versión gratuita).

Es similar a lo que veíamos antes, es decir, se basan en esas pautas que suelen delatar a los bots, si bien ellos mismos dicen que no es un método perfecto, pero que es una buena forma de al menos ver si hay una mayoría de cuentas humanas o no.

Por tanto, no parece existir una herramienta efectiva de manera clara para la detección de bots ni por parte de la propia Twitter, sino algunas que determinan las cuentas que más signos manifiestan, pero que no se libran del problema de los falsos positivos y negativos. Además, desde los primeros los bots cada vez son más avanzados pudiendo escapar con más facilidad a estos rastreos o siendo cada vez más "humanos" en sus ganchos.

Ver todos los comentarios en https://www.xataka.com.co

VER 0 Comentario

Portada de Xataka Colombia