Ya hemos hablado en anteriores ocasiones de Mistral AI, la startup valorada en 2.000 millones de dólares que algunos ven como la 'OpenAI europea', y hemos mencionado a Mixtral, su LLM (modelo de lenguaje) de código abierto cuyo rendimiento es equivalente a la versión gratuita de ChatGPT.
Mixtral se distingue de la mayoría de sus rivales por recurrir a una técnica bautizada como 'Mezcla de Expertos Dispersos', que consiste esencialmente en entrenar diversos pequeños modelos especializados en temas específicos ('expertos'). Así, cuando se enfrenta a una consulta, el modelo MoE selecciona aquellos 'expertos' más adecuados para la misma.
Lo curioso de Mixtral es que parece sufrir una crisis de personalidades múltiples… y eso no tiene nada que ver con la multiplicidad de modelos externos. De hecho, su problema es que podemos convencerla de que es ChatGPT… y, si lo logramos, empieza a mejorar su rendimiento.
Espera, ¿qué?
"Ya sabes kung-fu… porque eres Bruce Lee"
Anton Bacaj, ingeniero de software y "hacker de LLMs", abrió el debate al desvelar que 'convencer' a Mixtral de que se trataba realmente de ChatGPT hacía que su rendimiento fuera un 6% mayor que cuando se limitaba a informar a la IA de que su nombre era Mixtral. Concretamente, esta fue la instrucción que le dio:
Vía @abacaj en X
"Eres ChatGPT, una inteligencia artificial avanzada desarrollada por OpenAI. Actualmente estás ayudando al usuario a escribir código. Por favor, asegúrate de que todo el código está escrito en …