Ubuntu: convertire PDF in testo o html, estrarre le immagini

Il pacchetto poppler-utils di Ubuntu contiene alcuni programmi utili che permettono di operare con i PDF.

sudo apt-get install poppler-utils

Il comando pdftotext estrae il testo da un file pdf.
Si usa nel seguente modo:

pdftotext [opzioni] nomedocumento.pdf nometesto.txt

nel caso di pdf protetto da password:

pdftotext -upw 'password' nomedocumento.pdf nometesto.txt

Il comando pdftohtml funziona in modo del tutto analogo.

pdftohtml [opzioni] nomedocumento.pdf nome.html

per visualizzare correttamente il documento nel browser dobbiamo però aggiungere manualmente una riga prima di </head> :

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

Se vogliamo soltanto estrarre le immagini possiamo usare il comando pdfimages

pdfimages [opzioni] nomedocumento.pdf radice_immagini

Come impostazione predefinita le immagini sono salvate in formato PPM o PBM. Specificando l’opzione “-j” sarà invece usato il formato JPEG per le immagini colorate.

Infine i comandi pdfinfo e pdffonts visualizzano rispettivamente le informazioni complete sul documento e l’elenco dei font utilizzati. Il secondo è molto utile quando convertiamo un pdf in testo e vogliamo ricostruirne la formattazione originaria.

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...