Este sábado Meta lanzó sus nuevos modelos de Llama 4: Scout y Maverick. La compañía destacó entre sus principales avances la capacidad de comprensión visual mejorada, que busca ofrecer una experiencia más personalizada. La atención se centró especialmente en Maverick, que prometía superar a competidores como GPT-4o y Gemini, según los primeros resultados publicados por la plataforma de referencia LMArena.
LMArena evalúa modelos de lenguaje de manera sencilla, pero efectiva: diferentes IA responden a una misma pregunta y, posteriormente, una persona valora cuál es la mejor respuesta. Es, en esencia, un enfrentamiento directo entre inteligencias artificiales en una arena virtual, del que sale una puntuación que genera el ránking global.
La valoración del modelo enviado con Meta no se correspondía con la realidad
Según Meta, Maverick obtuvo una puntuación de 1.417 puntos, colocándose rápidamente en segunda posición, por delante de GPT-4o y Gemini 2.5 Pro. Sin embargo, las cosas comenzaron a desmoronarse cuando los investigadores analizaron la documentación de Meta donde se refleja:
Llama 4 Maverick ofrece la mejor relación rendimiento-costo de su clase con una versión de chat experimental con puntuación ELO de 1417 en LMArena.
Esto reveló que el modelo evaluado no era el mismo que Meta había puesto a disposición de los usuarios, sino una versión experimental optimizada específicamente para destacar en las preferencias humanas. Dicho de otro modo, el modelo había sido ajustado para ofrecer respuestas más atractivas a los evaluadores humanos.
Desde LMArena reaccionaron rápidamente mediante un comunicado en …