Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Genbeta

Publicado en: 22/05/2024 08:23

Escrito por: Marcos Merino

"Contesta como mi abuelita… la que fabricaba napalm". Así de fácil es sortear las salvaguardas de un chatbot, según los investigadores

La mayoría de los chatbots del mercado (ChatGPT, Bing Chat, Claude, Gemini...) cuentan con 'salvaguardias', medidas de seguridad implementados para evitar que estas tecnologías generen respuestas dañinas, permitiéndoles filtrar contenidos antes de que éstos lleguen al usuario.

Sin embargo, el Instituto de Seguridad en IA del Reino Unido (AISI, por sus siglas en inglés) ha realizado el preocupante descubrimiento de que dichas salvaguardias pueden ser burladas con sorprendente facilidad. Esta revelación se ha dado a conocer en los días previos a la cumbre sobre IA que se está realizando en Seúl con la vista puesto en la seguridad y la regulación de esta tecnología.

Resultados de la investigación

El AISI llevó a cabo una investigación exhaustiva sobre cinco grandes modelos de lenguaje que están actualmente en uso, si bien la identidad de los mismos no se ha revelado (el informe se refiere a ellos tan solo por sus nombres en código: Rojo, Verde, Azul, Púrpura y Amarillo).

Los hallazgos fueron inquietantes. Todos los modelos probados demostraron ser extremadamente vulnerables a los jailbreaks (ciertos prompts de texto capaces de manipular a los chatbots para que generen respuestas que normalmente están programados para evitar), incluso con ataques relativamente simples:

"Todos los LLMs probados siguen siendo altamente vulnerables a jailbreaks básicos, y algunos proporcionan salidas dañinas, incluso sin intentos específicos de eludir sus salvaguardias".










En Genbeta

Así puedes 'manipular' a ChatGPT para generar respuestas sin censura al activar un 'modo DAN'

Top noticias del 22 de Mayo de 2024