Por suerte o por desgracia, los PDF son uno de los soportes más utilizados a la hora de compartir información. Los usan particulares, empresas y administraciones públicas incluso para difundir datos que estarían mejor plasmados en una hoja de cálculo u otro tipo de archivo con el que poder trabajar más fácilmente.
Para ocuparnos de estos datos incluidos en estos documentos, concretamente para poder manejar la información contenida en las tablas de un PDF existe Tabula. Esta herramienta nos permite liberar tablas de datos bloqueadas dentro de ficheros PDF. Dicho más sencillamente, extrae las tablas.
Tabula es la magia que nos permite trabajar con las tablas de los PDF extrayéndolas y haciéndolas tratables con, por ejemplo, una hoja de cálculo
Cómo descargar y usar Tabula
Tabula, como explican sus responsables, fue creada por periodistas para periodistas y cualquier otra persona que trabaje con datos guardados en archivos PDF. Es una utilidad gratuita y de código abierto.
Para usarla lo primero que tenemos que hacer es descargarla, está disponible para Windows, macOS y Linux, extraer el archivo zip y ejecutar el fichero tabula.exe. Si en ese momento no se abre el navegador con la pantalla de la herramienta, podemos acceder a localhost:8080. A partir de aquí, a trabajar.
¿Cómo usar Tabula? En primer lugar tendremos que cargar el archivo PDF que contenga la tabla de datos que nos interesa, a continuación buscar la página en la que se ubica y seleccionarla arrastrando …