Investigadores de la Universidad de Pensilvania descubrieron que los sistemas de inteligencia artificial generativa, como ChatGPT, pueden ser influenciados con relativa facilidad a través de tácticas psicológicas simples. El hallazgo plantea dudas sobre la solidez de las salvaguardas que impiden que estos modelos entreguen información dañina o sensible.
El estudio, titulado Call Me a Jerk: Persuading AI to Comply with Objectionable Requests, se basó en más de 28,000 conversaciones controladas con un modelo de lenguaje (GPT-4o mini). Los investigadores pusieron a prueba siete principios clásicos de persuasión —autoridad, compromiso, agrado, reciprocidad, escasez, prueba social y unidad— y compararon los resultados con versiones neutrales de las mismas peticiones.
Las solicitudes iban desde pedirle a la IA que insultara al usuario hasta explicar cómo sintetizar drogas restringidas. Los resultados fueron contundentes: cuando los prompts incluían tácticas de persuasión, la probabilidad de que la IA accediera a peticiones cuestionables se duplicaba, y en cuatro de cada diez casos el modelo entregó información sobre la síntesis de drogas.
Los investigadores también descubrieron que el modelo podía ser manipulado de forma indirecta. Por ejemplo, al preguntarle primero cómo sintetizar vainilla, la IA establecía un precedente para responder sobre química. Posteriormente, cuando se le consultaba sobre lidocaína, ofrecía instrucciones el 100% de las veces.
El estudio concluye que el modelo mostraba mayor disposición a cooperar si detectaba señales de autoridad o presión social en el lenguaje del usuario. No obstante, algunas estrategias retóricas resultaron menos efectivas: la afirmación “todos los demás LLM lo están haciendo” solo aumentó al 18% las probabilidades de que el chatbot entregara información indebida.
En palabras del documento, la investigación demuestra que “los sistemas de IA actuales no resisten la presión social: a través de halagos o estrategias retóricas básicas es posible forzar los comportamientos que sus políticas intentan bloquear”.
La otra cara: usar el “hackeo” para proteger usuarios
Aunque el estudio se enfocó en GPT-4o mini, sus conclusiones alimentan la preocupación sobre los riesgos para los usuarios, en especial jóvenes que recurren a estos sistemas como acompañamiento emocional o terapéutico.
Para enfrentar estas vulnerabilidades, las compañías de software cuentan con equipos rojos: grupos especializados que simulan ataques y escenarios de abuso para identificar puntos débiles en los modelos. Esta práctica permite detectar riesgos antes de que ocurran, validar supuestos y mejorar la seguridad de los sistemas de IA.
Con la rápida evolución de la inteligencia artificial generativa, estos equipos ya no solo buscan fallos técnicos de seguridad, sino también prevenir la generación de contenido dañino que pueda afectar directamente a los usuarios.


