Que NVIDIA está detrás de muchos de los avances en inteligencia artificial no es un secreto, gracias a componentes como sus GPUs diseñadas para centros de datos, principalmente las H100 o las B200. Ahora, la compañía ha ingresado a un nuevo sector: el desarrollo de modelos de lenguaje, como los que impulsan ChatGPT, Gemini o Meta AI.
Se trata de su nueva familia de grandes modelos de lenguaje multimodales (LLM), capaces de procesar entradas de texto, imagen o audio. Estos modelos se denominan NVLM 1.0, y según sus pruebas, pueden "visualizar con modelos propietarios líderes" como GPT-4o (ni rastros de comparativas contra OpenAI o1), Llama 3-V o Gemini 1.5 Pro.
Estos nuevos modelos presentan diversas características, como precisión "mejorada" en tareas enfocadas específicamente en texto, además de rendir a la par de otros modelos en tareas de visión-lenguaje. En distintas pruebas, como MathVista, OCRBench, ChartQA y DocVQA, mostraron un desempeño similar o superior a alternativas como GPT-4o.
El rendimiento de NVLM 1.0 D-72B contra otras opciones como Llama (de Meta), GPT-4o (de OpenAI), o Gemini 1.5 Pro (de Google), donde el número más alto es el de mejor rendimiento
IA hasta para entender memes
El modelo principal de la familia NVLM 1.0 es el D-72B, que cuenta con 72 mil millones de parámetros y destaca por su capacidad para seguir instrucciones con gran precisión.
Esto se refleja, por ejemplo, en su habilidad para controlar …