Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Genbeta

Publicado en: 07/04/2024 03:05

Escrito por: Eva Rodriguez de Luis

OpenAI transcribió más de un millón de horas de vídeos de YouTube para entrenar GPT-4 esquivando su política de uso, según NYT

OpenAI transcribió más de un millón de horas de vídeos de YouTube para entrenar GPT-4 esquivando su política de uso, según NYT

Una de las claves del buen desempeño de los modelos de inteligencia artificial es su entrenamiento, pero hay un problema: encontrar una gran cantidad de datos de calidad para llevarlos a cabo y por supuesto, que estos estén disponibles para su uso. Si además tenemos en cuenta que hay varios modelos en el mercado compitiendo entre sí, la depuración se torna una característica clave.

De hecho y como explica The Wall Street Journal, ese es uno de sus grandes desafíos, motivo por el cual no es de extrañar que webs tan suculentas como Reddit cierren acuerdos para vender su contenido para tal fin. No obstante, no es que no haya ingentes cantidades de información disponible en internet, el matiz está en que su uso para entrenamiento puede estar restringido por políticas de uso.

Pero hecha la ley, hecha la trampa: en las últimas horas un reportaje de The New York Times recoge las artimañas de las principales empresas de inteligencia artificial para conseguir en esa valiosa información protegida por derechos de propiedad intelectual dando una vuelta de tuerca a esas condiciones para que caigan en una zona gris donde puedan aprovecharse de ella.

Buscando los agujeros a las políticas de uso... o cambiándolas

Según NYT, allá por 2021 OpenAI se enfrentó a un serio problema de falta de suministro de datos, así que se les ocurrió una idea tras analizar los recursos disponibles: transcribir videos, podcasts y audiolibros de YouTube. Por aquel entonces ya había empleado datos de Github de …

Top noticias del 7 de Abril de 2024