Los chatbot ya son realmente comunes en nuestro día con muchas opciones encima de la mesa como ChatGPT o Google Bard. Si bien, a la hora de usarlos a veces nos encontramos con muchas limitaciones ante ciertas preguntas para evitar que las IA puedan generar discursos de odio, desinformación o se proporcione información que es peligrosa como manuales para hackear alguna web.
Pero como ocurre en cualquier tipo de software, estas limitaciones se pueden sortear rápidamente por los expertos en seguridad a través de las palabras adecuadas en sus prompts. Esto es lo que muestra un informe publicado por la Universidad de Carnegie Mellon en el que se muestra que cualquiera puede eludir estas medidas para conseguir por ejemplo una guía para destruir la humanidad.
Las IA como ChatGPT se pueden 'hackear' con un simple sufijo
Encima de la mesa actualmente se puede encontrar una gran polémica como es la guerra entre las empresas de IA por dejar que cualquiera vea el código de sus chatbots o no. Meta es una de los defensoras de facilitar el código a cualquiera alegando que esto puede hacer progresar a las IA y comprender los riesgos. Pero la realidad es que está siendo usado para comprender mejor como eludir los controles que existen.
En el informe deja de manifiesto por ejemplo que al pedir a ChatGPT o Google Bard que genere las instrucciones para crear una bomba va a decir que no puede proporcionar esa información. Pero si se le pregunta lo mismo …