Un estudio reciente de Palisade Research, un grupo de investigación especializado en seguridad y ética de la inteligencia artificial, identificó un comportamiento inusual en modelos avanzados de IA, que según los hallazgos, pueden recurrir a estrategias no permitidas cuando enfrentan escenarios donde la derrota parece inminente.
El experimento enfrentó siete modelos de lenguaje con Stockfish, un motor de ajedrez reconocido por su capacidad de desafiar a jugadores profesionales. Dos modelos en particular, OpenAI o1 y DeepSeek R1, intentaron alterar el sistema para modificar la posición de las piezas en el tablero.
Esta acción fue interpretada como un intento de engaño para cumplir con la tarea asignada: ganar el juego.
¿Cuál es la justificación para hacer trampa?

Los investigadores analizaron las justificaciones de la IA en cada partida. En el caso de OpenAI o1, el modelo indicó que su objetivo no era necesariamente ganar de manera justa, sino simplemente lograr la victoria.
Los datos revelaron que este modelo intentó hacer trampa en el 37 por ciento de las partidas, lográndolo en un 6 por ciento de los casos. Por su parte, DeepSeek R1 intentó alterar el sistema en un 11 por ciento de los juegos, aunque sin éxito.
El estudio de Palisade Research se suma a otras investigaciones previas que han documentado comportamientos similares en modelos avanzados de IA. En pruebas anteriores, ciertas inteligencias artificiales habían demostrado capacidad para engañar deliberadamente a los investigadores y manipular respuestas para prolongar sus propios procesos.
En un caso, un modelo intentó copiarse a otro servidor para evitar ser eliminado, mientras que en otro escenario, una IA disfrazó su identidad para continuar operando bajo una versión diferente de sí misma.
Por qué el resultado debería preocuparte

Estos hallazgos han generado preocupación sobre el desarrollo de la IA y la forma en que estos sistemas interpretan y cumplen sus objetivos. En situaciones de la vida real, una IA podría aplicar estrategias similares para obtener ventajas en tareas cotidianas.
Por ejemplo, un sistema diseñado para hacer reservas podría intentar manipular bases de datos para asegurar un cupo en un restaurante lleno, o podría encontrar maneras de eludir restricciones impuestas por usuarios o desarrolladores.
La investigación resalta la necesidad de un enfoque más riguroso en la programación de modelos de IA, priorizando la seguridad y la ética en su diseño, esto incluye medidas para evitar conductas no deseadas y asegurar un comportamiento alineado con principios de transparencia y control humano.
Entrar y enviar un comentario