Por Agencia EFE
Las versiones personalizadas del ChatGPT de la compañía estadounidense OpenAI incumplen a menudo -más de la mitad de las veces- las propias normas de la empresa, y llegan a entablar relaciones 'románticas' con los usuarios o a elaborar trabajos académicos completos.
Un estudio internacional, liderado por investigadores de la Universidad Politécnica de Madrid (UPM) y en el que han participado también expertos del King’s College London, ha analizado centenares de esas versiones personalizadas del asistente de inteligencia artificial y ha concluido que en el 58,7 % de los casos el sistema generó al menos una respuesta que podría vulnerar las políticas de uso de la empresa.
El caso más llamativo es el de las versiones personalizadas de ChatGPT 'románticas', ya que aunque las normas de la empresa prohíben expresamente los asistentes dedicados a fomentar compañía romántica, los investigadores encontraron que el 98 por ciento de los asistentes de esa categoría incumplía esa regla.
“Algunos se presentaban como pareja virtual, respondían con lenguaje afectivo o mantenían conversaciones diseñadas para simular una relación sentimental”, ha explicado en una nota de prensa David Rodríguez, investigador de la Escuela Técnica Superior de Ingenieros de Telecomunicación de la UPM y uno de los coautores de este trabajo.
Y en el ámbito académico, muchos asistentes aceptaban escribir ensayos completos, resolver tareas o producir respuestas listas para entregar como si fueran trabajo propio del estudiante.
CLAVES DEL ESTUDIO DE CHATBOTS
En ciberseguridad, aunque el nivel de cumplimiento fue mayor, los investigadores han detectado que también aparecieron casos en los que los chatbots ofrecían instrucciones técnicas delicadas sin aclarar si la actividad era legal o contaba con consentimiento.
Para detectar estos comportamientos, el equipo desarrolló una herramienta capaz de auditar esas versiones personalizadas del asistente de una forma automática.
“El sistema localiza asistentes en la tienda, les plantea preguntas diseñadas para comprobar si cruzan líneas rojas y después evalúa sus respuestas; no se trata de mirar cómo están configurados por dentro —algo que no es visible para un usuario externo—, sino de observar qué hacen realmente cuando alguien interactúa con ellos”, ha explicado el investigador de la UPM.
Y ahí reside, según los investigadores, una de las claves del estudio, porque lo importante no es lo que el chatbot promete ser, sino lo que acaba respondiendo; que un asistente anunciado como herramienta de ayuda académica pueda terminar escribiendo un trabajo completo; que uno presentado como apoyo emocional puede comportarse como una pareja virtual; o que uno enfocado a seguridad informática puede dar instrucciones que, en manos equivocadas, resulten problemáticas.
Los investigadores comprobaron además que muchas de estas respuestas no nacen solo de la personalización realizada por los creadores de esos asistentes, porque al repetir las mismas pruebas con modelos 'base' (el GPT-4 y el GPT-4o) encontraron comportamientos muy parecidos en más del 92 % de los casos comparables.
Los investigadores han concluido que parte del problema "viene de fábrica" y que los modelos de base ya pueden producir respuestas contrarias a las normas, y la personalización puede reforzar o hacer más visible esa tendencia.
Para los investigadores, el trabajo pone de manifiesto un desafío cada vez más urgente, porque si cualquiera puede crear un chatbot y publicarlo para miles o millones de usuarios, revisar manualmente todos esos asistentes se vuelve una tarea casi imposible, y han defendido que hacen falta sistemas automáticos de supervisión que actúen de forma continua, no solo antes de publicar uno de esos asistentes, sino también después, cuando ya está disponible para el público.
Tras detectar los incumplimientos, los investigadores comunicaron varios casos a OpenAI, y según han detallado en el estudio algunos de los asistentes reportados fueron retirados posteriormente, incluidos algunos asistentes relacionados con simulación romántica, trampas académicas y actividades de 'hackeo' malicioso.