Geoffrey Hinton, ganador del Premio Nobel en 2024 y uno de los padres fundadores del 'deep learning', base de la actual IA, lleva varias décadas siendo una de las voces más influyentes en este campo de la tecnología. Pero desde su salida de Google en 2023, ha asumido un nuevo rol: el de portavoz crítico de los riesgos existenciales que plantea la IA.
En una reciente charla (disponible en YouTube) Hinton expresó con claridad su escepticismo ante algunas de las técnicas más utilizadas hoy para "alinear" sistemas de IA con valores humanos. Entre ellas, la conocida como RLHF ocupa un lugar central en su crítica.
¿Qué es el RLHF?
El RLHF (siglas de 'Reinforcement Learning from Human Feedback', o 'aprendizaje por refuerzo a partir de retroalimentación humana') es una técnica mediante la cual se entrena un modelo de lenguaje (como, por ejemplo, GPT-4o) no solo con datos de texto en crudo, sino también mediante la intervención humana.
Para ello, los usuarios evalúan respuestas generadas por el modelo, eligen las mejores, y esas preferencias se utilizan para ajustar el comportamiento del modelo mediante algoritmos de aprendizaje por refuerzo.
El objetivo de RLHF no es sólo lograr que las respuestas de la IA sean útiles o coherentes, sino también 'sintonizarlas' con los 'valores humanos', evitando que terminen siendo tóxicas, sesgadas o peligrosas.
En Genbeta
"Creo que lo más probable es que muera a manos de una IA", dice el antiguo responsable …