lunes, octubre 20, 2008

Pasar de pdf a texto/html

Para extraer el texto del pdf, se de dos aplicaciones que funcionan bien:
Por lo visto en una etapa del pipeline de fast (de las que vienen disponibles), se usa xpf (no lo puedo asegurar al 100%).
Nosotros en cierta ocasión usabamos el segundo (¿o fue pdf2html?). Porque nos daba mejores resultados.

Si quieres hilar mas fino, y no depender de una aplicación externa existe Poppler.
Parece que ha habido un amago de hacer bindings a python para poppler...
Uno de los peor de poppler es que no hay documentación.

Dentro del paquete poppler-utils, hay utilidades de conversión.
He visto que existe el paquete pyPdf.

1 comentario:

cesarob dijo...

Confirmado!!! en la instalacion de fast en el directorio bin, está el comando pdftotext con el siguiente copyright:


pdftotext version 3.02.07
Copyright 1996-2007 Glyph & Cog, LLC



El copyright de de pdftohtml es:


pdftohtml version 0.39 http://pdftohtml.sourceforge.net/, based on Xpdf version 3.00
Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch
Copyright 1996-2004 Glyph & Cog, LLC