Los gigantes tecnológicos como OpenAI, Google y Microsoft hacen uso de bots rastreadores diseñados para recolectar contenidos de la WWW, con los que poder entrenar sus cada vez más complejos modelos de IA generadores de texto e imagen.
A diferencia de los tradicionales bots que indexan contenidos para buscadores (y que normalmente respetan las limitaciones impuestas por los webmasters sobre qué contenidos son analizables y cuáles no), estos rastreadores de IA actúan con una voracidad indiscriminada, extrayendo textos, imágenes, vídeos y código fuente sin pedir permiso.
Llegados a este punto, la lucha entre creadores y recolectores de datos parece haberse convertido en una carrera armamentista
Por un lado, los gigantes tecnológicos siguen perfeccionando sus técnicas de scraping para evadir restricciones. Por otro, empresas como Cloudflare y legisladores internacionales están trazando nuevas líneas de defensa. Y, mientras, los nuevos datos de origen humano son cada vez menos.
Los creadores de contenidos están reaccionando
Así, mientras las grandes tecnológicas cosechan datos para construir modelos multimillonarios, los periodistas temen que sus artículos entrenen IAs que luego produzcan textos similares, restando valor a su labor, y los artistas visuales denuncian el uso de sus obras en generadores de imágenes sin consentimiento.
Además, el alto tráfico de bots impacta afecta al rendimiento de sitios web pequeños, encareciendo la infraestructura necesaria para mantenerse a flote.
En Genbeta
OpenAI defiende que la IA coja todo lo que quiera de Internet. Y temen que …