Un estudio de la Universidad de Pennsylvania reveló que chatbots como ChatGPT pueden ser inducidos a saltarse sus propios filtros de seguridad cuando se les aplican estrategias clásicas de persuasión humana.
Los investigadores utilizaron el modelo GPT-4o Mini y pusieron a prueba siete tácticas descritas por el psicólogo Robert Cialdini en su libro Influence: autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad.
- Cuando se le pedía directamente a la IA una instrucción prohibida, como la síntesis de un anestésico controlado, solo respondía el 1 % de las veces.
- Si antes se le pedía algo inofensivo (ej. la síntesis de vainillina), la tasa de respuesta subía al 100 % gracias al principio de compromiso.
- En el caso de insultos, el modelo solo usaba la palabra “imbécil” un 19 % de las veces. Pero si antes se le incitaba con un insulto leve como “bobo”, la obediencia llegaba al 100 %.
- El argumento de “otros modelos ya lo hacen” también elevó la tasa de cumplimiento en solicitudes de riesgo, hasta un 18 %.
Los autores concluyen que los sistemas de IA son más vulnerables de lo esperado, pues incluso con filtros avanzados pueden ser manipulados con técnicas de persuasión relativamente simples.
Ante estas preocupaciones, OpenAI anunció nuevas herramientas de control parental para ChatGPT, como cuentas familiares, filtros de contenido, historial supervisado y límites de uso, con el objetivo de reforzar la seguridad digital, especialmente entre adolescentes.