Actualización 27/01/2025: Se actualizó esta publicación para incluir el anuncio de Janus-Pro, una serie de modelos capaces de crear imágenes y que según la compañía, superan a DALL-E 3 de OpenAI.
Es de China, gratis, de código abierto, y supera a IAs como ChatGPT en varias pruebas de rendimiento. Se trata de DeepSeek-R1, una inteligencia artificial desarrollada en el país asiático que tiene como principal característica haber utilizado menos recursos para su entrenamiento contra otros modelos con potencia similar.
Eso no es todo, sino que luego de su presentación, la app de chatbot de DeepSeek se ha terminado por colocar en los primeros lugares de la App Store de Apple en Estados Unidos.
Qué es DeepSeek- R1
El más reciente anuncio de la compañía es la presentación del modelo DeepSeek-R1, un gran modelo que mezcla 671 mil millones de parámetros, con una arquitectura diferente que le permite tener un "rendimiento sólido" y un "entrenamiento e inferencia eficientes", esto último gracias a un sistema de predicción de tokens que mejora sus procesos sin necesitar una mayor cantidad de recursos para hacerlo.
Según DeepSeek, para entrenar a su modelo, la compañía necesitó de menos de 6 millones de dólares, aproximadamente dos meses y 2,000 chips especializados H800 de NVIDIA, un componente con menor potencia que otras variantes, por las restricciones de la guerra comercial con Estados Unidos. Caso contrario, GPT-4 requirió de 100 millones de dólares, según Sam …