
Die beiden häufigsten Quellen für PDFs: Office-Programme und Fotos. Werden Dokumente aus sowas wie Word exportiert oder gedruckt, bestehen die PDFs aus echtem Text - durchsuch- und editierbar. Werden Dokumente abfotografiert, enthalten PDFs einfach nur ein Bild. Per Texterkennung lässt sich dann eine Text-Ebene hinzufügen, die das PDF durchsuchbar machen. Und hier nun der wohl einfachste Weg, wenn Ihr das mit vielen Dokumenten machen wollt.
Batch-Texterkennung
Das Tool der Wahl heißt hier OCRmyPDF und ist für Windows und Linux verfügbar. Die Dokumentation samt Installationsanleitung findet Ihr hier. OCRmyPDF fügt dem Original-PDF eine Ebene mit erkanntem Text hinzu und speichert dann standardmäßig als PDF/A (Langzeitarchivierung).
Die Installation unter Linux, zum Beispiel Ubuntu:
sudo apt install ocrmypdf
Unter Windows sind es ein paar Kommandos mehr, schaut besser in die Doku.
Ein einzelner Aufruf könnte dann zum Beispiel so aussehen:
ocrmypdf --pdfa-image-compression lossless mein-dokument.pdf mein-dokument_ocr.pdf
Einzige Option hier: Die pdfa-image-compression soll lossless sein, sprich es soll verlustfrei komprimiert werden.
Und um nun alle PDFs im aktuellen Ordner zu verarbeiten und jeweils unter dem Originalnamen plus _ocr vor der Dateiendung zu speichern:
for i in $(ls *.pdf); do ocrmypdf --pdfa-image-compression lossless "$i" $(basename "${i%.*}")_ocr.pdf; done
Die übliche for-Schleife: Für jede PDF-Datei ($i) wird der ocrmypdf-Befehl ausgeführt, fertig. Einzig der basename-Befehl könnte Euch komisch vorkommen: Der zieht einfach nur den Dateinamen ohne die Erweiterung (.pdf) - mehr dazu in einem eigenen Artikel.
OCRmyPDF hat einige interessante Optionen, etwa zum Ausgabeformat, der Texterkennung und PDF-Optimierungen - allesamt überdurchschnittlich gut dokumentiert in der Kommandozeilenhilfe.
Und nur für alle Fälle, es stand in diesem Text zwar schon zweimal implizit, aber ... nun, vielleicht besser nochmal explizit: Das neue Dokument ist durchsuchbar, nicht editierbar ;)
Oder Ihr versucht Euer Glück mit sowas hier - auch wenn der eine negative Kommentar ziemlich abturnend klingt ...
Kennst du die OCR-Stapelverarbeitung von PDF24? Klappt super.
Ja, bisweilen habe ich mal einige der Tools genutzt, wenn auch nicht OCR – kann ich ebenfalls nur empfehlen! Gerade die Online-Versionen sind für mal eben echt nützlich. Zudem aus Deutschland, gibt auch Pluspunkte. Bei mir ging es bei diesem letzten Durchgang allerdings um Dokumente mit sensiblen Informationen und solche jage ich dann doch lieber durch ein Open-Source-Tool ;)
Ach, und für alle, die es nicht kennen: PDF24.org
Ich nutze PDF24 als Desktop-Programm. Das sieht mir nicht danach aus, dass da was außerhalb des Programms läuft.
Wollte ich damit auch nicht andeuten, ich werde mich hüten ;) Aber unter Sicherheitsaspekten werde ich brauchbare Open-Source-Projekte immer proprietärer Software vorziehen.