Bajo el sencillo título de La donación el ingeniero de datos Jaime Gómez-Obregón ha publicado por fin el trabajo en el que lleva meses trabajando y para el que realizó una exitosa campaña de financiación colectiva. La temática elegida fue «los escándalos en torno a la Casa Real española», pero podrían usarse las mismas herramientas y metodología para analizar los superhéroes del Universo Marvel, la documentación de la investigación de las vacunas de la Covid-19 o la contratación pública en Cantabria; otra trabajo anterior de Gómez-Obregón de hace unos años.
En la sección dedicada a la metodología el autor explica cómo ha sido el trabajo que ha llevado a cabo en soledad, cual hombre-orquesta; los más afortunados hemos podido seguir la evolución por Twitter semana a semana. Básicamente ha consistido en localizar y extraer todos los documentos posibles de Internet sobre un tema, incluyendo: boletines oficiales, datos de la Wikipedia, registros públicos de empresas, noticias de periódicos y cualquier cosa que sea transformable en texto. Esto no siempre es fácil porque muchas entidades ponen grandes trabas a la transparencia, no publicando información o haciéndolo en formatos incómodos, pero nada que un buen bot no pueda rastrear, scrappear, convertir y adecuar para ser procesado. Esto incluye la conversión de incómodos PDFs en formatos más legibles y en una gran limpieza manual de todos los datos (que muchas veces contienen erratas, a veces aleatorias, a veces no tanto).
El paso clave es identificar los elementos de la historia (personas, empresas, entidades, fechas…) …