miércoles, abril 13, 2005

pdftotext


Este producto GNU/GPL es usado por FAST en una etapa de su pipeline. Forma parte del paquete xpdf.
Las opciones usadas parason: -raw -htmlmeta -enc UTF-8 -nopgbrk.

  • -raw: hace que se usen los tags de html 'pre'. Vamos evita que todo salta en una linea sin saltos, basicamente.
  • -htmlmeta: lo que genera es una pagina html. En caso contrario es texto.
  • -enc UTF-8: se genera el texto con dicho encoding
  • - nopfbrk: evita que se genera un salto de pagina.
Si lo que queremos es general en texto, en plan legible al menos yo usaria -raw.
Si queremos texto para meterlo a un procesador de textos, entonces lo mejor es no usar -raw.

No hay comentarios: