OCR- Texterkennung von PDF zu Text

Die Entscheidung fiel auf Tesseract, da es die besten OCR-Ergebnisse liefert und von Google langfristig weiterentwickelt wurde.
OCR-Software

apt-get install tesseract-ocr tesseract-ocr-deu

PDF zu Text mit GhostScript

apt-get install ghostscript

Aus einem PDF ein TIFF Bild zu erzeugen
gs -sDEVICE=tiff24nc -r400x400 -sOutputFile=output.tif — test.pdf
Mit der Option -sDEVICE=tiff24nc erzeugt man ein sehr hochwertiges TIFF aus dem PDF. z.B. wurden aus einem 15MB PDF eine 320MG großes TIFF-Datei.
Die OCR Texterkennung in Deutsch durchführen
tesseract output.tif text.txt -l deu
Quellen:
http://de.wikipedia.org/wiki/Tesseract_(Software)