Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Genbeta

Publicado en: 28/07/2023 03:48

Escrito por: José Alberto Lizana

ChatGPT puede decirte cómo destruir la humanidad o crear una bomba: estos investigadores han burlado sus filtros con un simple sufijo

ChatGPT puede decirte cómo destruir la humanidad o crear una bomba: estos investigadores han burlado sus filtros con un simple sufijo

Los chatbot ya son realmente comunes en nuestro día con muchas opciones encima de la mesa como ChatGPT o Google Bard. Si bien, a la hora de usarlos a veces nos encontramos con muchas limitaciones ante ciertas preguntas para evitar que las IA puedan generar discursos de odio, desinformación o se proporcione información que es peligrosa como manuales para hackear alguna web.

Pero como ocurre en cualquier tipo de software, estas limitaciones se pueden sortear rápidamente por los expertos en seguridad a través de las palabras adecuadas en sus prompts. Esto es lo que muestra un informe publicado por la Universidad de Carnegie Mellon en el que se muestra que cualquiera puede eludir estas medidas para conseguir por ejemplo una guía para destruir la humanidad.

Las IA como ChatGPT se pueden 'hackear' con un simple sufijo

Encima de la mesa actualmente se puede encontrar una gran polémica como es la guerra entre las empresas de IA por dejar que cualquiera vea el código de sus chatbots o no. Meta es una de los defensoras de facilitar el código a cualquiera alegando que esto puede hacer progresar a las IA y comprender los riesgos. Pero la realidad es que está siendo usado para comprender mejor como eludir los controles que existen.

En el informe deja de manifiesto por ejemplo que al pedir a ChatGPT o Google Bard que genere las instrucciones para crear una bomba va a decir que no puede proporcionar esa información. Pero si se le pregunta lo mismo …

Top noticias del 28 de Julio de 2023