Los modelos de lenguaje resultan cada vez más sorprendentes: a todos nos vienen a la mente ejemplos de inteligencias artificiales como GTP-2 o GPT-3 de OpenAI, generadores de texto capaces de mantener el sentido y la coherencia del mismo, llegando en algunos casos a resultar indistinguible de un texto escrito por humanos. Sin embargo, esta clase de modelos adolecen de dos defectos:
Casi en su totalidad, son desarrollos privativos, cuyo código permanece inaccesible para la comunidad de investigadores.
Suelen olvidarse de que existen (muchas) lenguas al margen del inglés.
¡BLOOM!
Ahora, ambas cosas van a cambiar gracias al lanzamiento de 'BigScience Large Open-science Open-access Multilingual Language Model', más conocido como 'BLOOM'. El desarrollo de esta IA comenzó en 2021, con el respaldo humano y financiero (100 millones de dólares) de la startup de machine learning Hugging Face (a la que conocerás, por ejemplo, por alojar el generador de DALL-E Mini en su sitio web), aunque también han colaborado Nvidia, Microsoft y el CNRS (el 'CSIC francés').
En declaraciones a VentureBeat, Teven Le Scao, ingeniero de investigación de Hugging Face, ha explicado que Hugging Face hizo uso de los proyectos opensource 'Megatron' de Nvidia y 'DeepSpeed' de Microsoft —ambos basados en el framework de machine learning PyTorch—, creados para permitir a los científicos de datos entrenar grandes modelos de lenguaje.
BLOOM está entrenado para generar texto un total de 59 idiomas: 46 de ellos naturales (incluyendo el español, el catalán y el vasco) y 13 …