Los principales LLM (grandes modelos de lenguaje) —como GPT-4/5, Bard, LlaMa, Alpaca, Vicuna o Claude— se nutren de miles de millones de textos disponibles en la 'web abierta' (los sitios web a los que cualquiera de nosotros puede acceder con la ayuda de un navegador estándar). Eso es una gran cantidad de material con la que trabajar… pero no es todo el contenido que puede ofrecer Internet.
Y es que ha habido alguien que, a la hora de plantearse entrenar su propio LLM, ha puesto sus ojos en la Dark Web, ese rinconcito oscuro de la Red lleno de foros para cibercriminales y hackers (que no son necesariamente lo mismo), así como de venta de drogas y armas, apuestas, pornografía de dudosa legalidad, etc.
Con todo lo que es posible hacer usando ChatGPT, que ha sido entrenado en el 'lado luminoso' de Internet, uno sólo puede temblar pensando en lo que podría hacerse con su hermano malvado…
…pero que no cunda el pánico: los creadores de este nuevo modelo de lenguaje, llamado DarkBERT, son un equipo de investigadores surcoreanos —de la universidad Korea Advanced Institute of Science & Technology (KAIST) y la compañía S2W— cuyo objetivo principal radica en estudiar a fondo a los cibercriminales.
En Xataka
Cómo llegar a ser un hacker: varios expertos en seguridad nos lo cuentan
Un curioso objeto de estudio
Y como éstos no suelen ser muy colaborativos a la hora …