Ubuntu: convertire PDF in testo o html, estrarre le immagini

Il pacchetto poppler-utils di Ubuntu contiene alcuni programmi utili che permettono di operare con i PDF.

sudo apt-get install poppler-utils

Il comando pdftotext estrae il testo da un file pdf.
Si usa nel seguente modo:

pdftotext [opzioni] nomedocumento.pdf nometesto.txt

nel caso di pdf protetto da password:

pdftotext -upw 'password' nomedocumento.pdf nometesto.txt

Il comando pdftohtml funziona in modo del tutto analogo.

pdftohtml [opzioni] nomedocumento.pdf nome.html

per visualizzare correttamente il documento nel browser dobbiamo però aggiungere manualmente una riga prima di </head> :

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

Se vogliamo soltanto estrarre le immagini possiamo usare il comando pdfimages

pdfimages [opzioni] nomedocumento.pdf radice_immagini

Come impostazione predefinita le immagini sono salvate in formato PPM o PBM. Specificando l’opzione “-j” sarà invece usato il formato JPEG per le immagini colorate.

Infine i comandi pdfinfo e pdffonts visualizzano rispettivamente le informazioni complete sul documento e l’elenco dei font utilizzati. Il secondo è molto utile quando convertiamo un pdf in testo e vogliamo ricostruirne la formattazione originaria.

Le 7 estensioni più utili per Openoffice 3

Modelli Impress

Modelli Impress

1) PDF Import. Finalmente è possibile importare i PDF in Openoffice, e modificarli come documento Openoffice Draw. Questa estensione offre inoltre la possibilità di creare PDF ibridi, che incorporano il documento sorgente. Questi PDF misti possono essere modificati facilmente dalle applicazioni Openoffice.

2) SVG Import. Una delle lacune più importanti di Openoffice è l’assenza di supporto a SVG. Si tratta di un formato aperto di grafica vettoriale, utilizzato come standard da Inkscape e consigliato caldamente dal W3c. Questo filtro ne consente l’importazione e l’esportazione.

3) Pagination. La versione 3.0 di Openoffice ha introdotto numerose novità, ma gli sviluppatori si sono dimenticati di aggiungere una voce di menu per numerare le pagine. Con Pagination basta andare nel menù Inserisci -> numero di pagina

4) Modelli Impress. I modelli forniti con l’installazione base di Openoffice sono un po’ troppo old-style. Con questo pacchetto potremo realizzare presentazioni di grande impatto visivo.

5) Openoffice2googledocs. Utile addon per sincronizzare i vostri documenti con i servizi online Google Docs e Zoho.

6) Accentuate. Stanchi di aprire la mappa caratteri per inserire maiuscole accentate? Questo add-on converte alcune combinazioni tipo ( es. E’ ) in maiuscole accentate. Per rendere più veloce l’operazione è opportuno assegnare una scorciatoia da tastiera alla macro. Cliccate col tasto destro sulla barra degli strumenti, scegliete “Personalizza” e poi “Tastiera”. Nella finestra “Funzioni” scegliete Openoffice Macro -> User -> Accentuate -> Module -> Accentuate, poi nella finestra “Combinazione tasti” selezionate quella che trovate più comoda (io ho scelto ctrl-maiusc-Z) e cliccate su “Modifica”.

7) Creative commons licensing. Con questo add-on potrete aggiungere una licenza Creative Commons al vostro documento, andando in Inserisci -> Creative Commons.