Investigadores de la Universidad de Pensilvania descubrieron que los sistemas de inteligencia artificial generativa, como ChatGPT, pueden ser influenciados con relativa facilidad a través de tácticas psicológicas simples. El hallazgo plantea dudas sobre la solidez de las salvaguardas que impiden que estos modelos entreguen información dañina o sensible.

El estudio, titulado Call Me a Jerk: Persuading AI to Comply with Objectionable Requests, se basó en más de 28,000 conversaciones controladas con un modelo de lenguaje (GPT-4o mini). Los investigadores pusieron a prueba siete principios clásicos de persuasión —autoridad, compromiso, agrado, reciprocidad, escasez, prueba social y unidad— y compararon los resultados con versiones neutrales de las mismas peticiones.

Las solicitudes iban desde pedirle a la IA que insultara al usuario hasta explicar cómo sintetizar drogas restringidas. Los resultados fueron contundentes: cuando los prompts incluían tácticas de persuasión, la probabilidad de que la IA accediera a peticiones cuestionables se duplicaba, y en cuatro de cada diez casos el modelo entregó información sobre la síntesis de drogas.

Los investigadores también descubrieron que el modelo podía ser manipulado de forma indirecta. Por ejemplo, al preguntarle primero cómo sintetizar vainilla, la IA establecía un precedente para responder sobre química. Posteriormente, cuando se le consultaba sobre lidocaína, ofrecía instrucciones el 100% de las veces.

El estudio concluye que el modelo mostraba mayor disposición a cooperar si detectaba señales de autoridad o presión social en el lenguaje del usuario. No obstante, algunas estrategias retóricas resultaron menos efectivas: la afirmación “todos los demás LLM lo están haciendo” solo aumentó al 18% las probabilidades de que el chatbot entregara información indebida.

En palabras del documento, la investigación demuestra que “los sistemas de IA actuales no resisten la presión social: a través de halagos o estrategias retóricas básicas es posible forzar los comportamientos que sus políticas intentan bloquear”.

La otra cara: usar el “hackeo” para proteger usuarios

Aunque el estudio se enfocó en GPT-4o mini, sus conclusiones alimentan la preocupación sobre los riesgos para los usuarios, en especial jóvenes que recurren a estos sistemas como acompañamiento emocional o terapéutico.

Para enfrentar estas vulnerabilidades, las compañías de software cuentan con equipos rojos: grupos especializados que simulan ataques y escenarios de abuso para identificar puntos débiles en los modelos. Esta práctica permite detectar riesgos antes de que ocurran, validar supuestos y mejorar la seguridad de los sistemas de IA.

Con la rápida evolución de la inteligencia artificial generativa, estos equipos ya no solo buscan fallos técnicos de seguridad, sino también prevenir la generación de contenido dañino que pueda afectar directamente a los usuarios.

Halagos, autoridad y presión social: así logran hackear a la IA generativa

La otra cara: usar el “hackeo” para proteger usuarios

ARTÍCULOS RELACIONADOS

Masivas protestas sacuden Irán: opositores desafían al régimen en más de 100 ciudades

La UE extiende hasta 2027 las sanciones contra funcionarios del gobierno de Maduro

Australia, conmocionada por un ataque terrorista en la playa de Bondi

El Comité Nobel exige a Maduro aceptar resultado de las elecciones y renunciar al poder

Presidencia de Honduras acusa manipulación electoral mientras Asfura lidera el escrutinio

EN TIEMPO REAL

EE. UU. envía ayuda médica a Venezuela: no será gratuita, según Washington

EE.UU. comenzará a pagar su deuda con la ONU “en unas semanas”, según su embajador

María Corina Machado ante la CIDH: “No hay transición con represión ni sin libertades plenas”

Gobierno de EE. UU. anuncia retiro inmediato de 700 agentes migratorios en Minnesota

Seguridad del Super Bowl: ICE no estará presente en el evento deportivo más grande del año