pdftotext
Este producto GNU/GPL es usado por FAST en una etapa de su pipeline. Forma parte del paquete xpdf.
Las opciones usadas parason: -raw -htmlmeta -enc UTF-8 -nopgbrk.
- -raw: hace que se usen los tags de html 'pre'. Vamos evita que todo salta en una linea sin saltos, basicamente.
- -htmlmeta: lo que genera es una pagina html. En caso contrario es texto.
- -enc UTF-8: se genera el texto con dicho encoding
- - nopfbrk: evita que se genera un salto de pagina.
Si queremos texto para meterlo a un procesador de textos, entonces lo mejor es no usar -raw.
No hay comentarios:
Publicar un comentario