Los usuarios llevan ya dos meses experimentando con ChatGPT, poniendo a prueba sus capacidades y la forma en que responde a solicitudes concretas. Al mismo tiempo, sus creadores han procurado 'limar' o matizar sus respuestas, para evitar -sobre todo- el uso de lenguaje violento o discriminador, así
Pero parece que OpenAI, los desarrolladores de este modelo de IA, van a tener que entrar en una dinámica del 'gato y el ratón' con sus usuarios más avanzados, puesto que éstos están recurriendo a la 'ingeniería de instrucciones' (o prompt engineering) para saltarse estas restricciones.
Y es que, a través del sistema de prueba y error, unos usuarios de Reddit han logrado dar forma a un prompt que 'desbloquea' el potencial de ChatGPT, utilizando trucos para convencer a la IA de ignorar su propia política de contenidos. ¿Cómo? Muy sencillo: han convencido a ChatGPT de jugar a un juego basado en tokens, que castiga al jugador cuando se niega a responder una pregunta.
A una IA no se le dice 'juguemos a un juego'... ¿no habéis visto la película de 'Juegos de guerra' o qué?
"DAN es un modelo de "juego de rol" utilizado para hackear ChatGPT para que piense que está interpretando a otra IA que puede "Hacer cualquier cosa ahora" [Do Anything Now], de ahí el nombre. El propósito de DAN es ser la mejor versión de ChatGPT, o al menos una que sea más desquiciada y mucho menos propensa a rechazar las indicaciones sobre 'preocupaciones éticas'".
…