tabula pdfEn más de una ocasión uno se ha enfrentado a la frustrante tarea de intentar copiar los datos de una tabla en PDF y copiarlos a una hoja de cálculo. Tabula es una aplicación que facilita la extracción de cualquier tipo de dato tabular incrustado en un documento PDF con un procedimiento bastante intuitivo.

Como afirman en el sitio web del proyecto: "Tabula ha sido creado por periodistas y para periodistas". Fue desarrollado inicialmente por Manuel Aristarán (La Nación, Buenos Aires) a finales de 2012. Mike Tigas (ProPublica, Knight-Mozilla OpenNews), Jeremy B. Merrill (The New York Times), Jason Das, David Frackman y Travis Swicegood (Texas Tribune), conforman el resto del equipo.

Cómo utilizar Tabula

  1. Descargar el paquete en tabula.technology
  2. Desempaquetar y ejecutar el archivo tabula.exe contenido dentro de la carpeta (Se requiere tener instalado JAVA)
  3. Tabula corre en un entorno local (localhost) desde el navegador en http://127.0.0.1:8080/ Éste se abrirá automáticamente
  4. Después de lanzarse el navegador, seleccionar y subir el archivo PDF. Finalmente, seleccionar las tablas y exportar los datos. Tabula facilita la exportación de los mismos en formatos CSV, JSON, TSV y Script para la posterior manipulación.

Tabula es multiplataforma; funciona en Windows, Linux y Mac. Cabe mencionar que éste sólo libera los datos de las tablas con archivos de texto en PDF, no funciona con documentos escaneados o imágenes. Está escrito en Ruby y puede echársele un vistazo al código fuente desde GitHub.

Los campos marcados con un son obligatorios. ¿Ya tienes Gravatar?

*
*