Office & Business

PDF: Texterkennung stapelweise für Windows und Linux

PDFs sollen durchsuchbar sein? Zum Beispiel fotografierte Dokumente? So geht's mit großen Mengen

Die beiden häufigsten Quellen für PDFs: Office-Programme und Fotos. Werden Dokumente aus sowas wie Word exportiert oder gedruckt, bestehen die PDFs aus echtem Text - durchsuch- und editierbar. Werden Dokumente abfotografiert, enthalten PDFs einfach nur ein Bild. Per Texterkennung lässt sich dann eine Text-Ebene hinzufügen, die das PDF durchsuchbar machen. Und hier nun der wohl einfachste Weg, wenn Ihr das mit vielen Dokumenten machen wollt.

Batch-Texterkennung

Das Tool der Wahl heißt hier OCRmyPDF und ist für Windows und Linux verfügbar. Die Dokumentation samt Installationsanleitung findet Ihr hier. OCRmyPDF fügt dem Original-PDF eine Ebene mit erkanntem Text hinzu und speichert dann standardmäßig als PDF/A (Langzeitarchivierung).

Die Installation unter Linux, zum Beispiel Ubuntu:

sudo apt install ocrmypdf 

Unter Windows sind es ein paar Kommandos mehr, schaut besser in die Doku.

Ein einzelner Aufruf könnte dann zum Beispiel so aussehen:

ocrmypdf --pdfa-image-compression lossless mein-dokument.pdf mein-dokument_ocr.pdf 

Einzige Option hier: Die pdfa-image-compression soll lossless sein, sprich es soll verlustfrei komprimiert werden.

Und um nun alle PDFs im aktuellen Ordner zu verarbeiten und jeweils unter dem Originalnamen plus _ocr vor der Dateiendung zu speichern:

for i in $(ls *.pdf); do ocrmypdf --pdfa-image-compression lossless "$i" $(basename "${i%.*}")_ocr.pdf; done

Die übliche for-Schleife: Für jede PDF-Datei ($i) wird der ocrmypdf-Befehl ausgeführt, fertig. Einzig der basename-Befehl könnte Euch komisch vorkommen: Der zieht einfach nur den Dateinamen ohne die Erweiterung (.pdf) - mehr dazu in einem eigenen Artikel.

OCRmyPDF hat einige interessante Optionen, etwa zum Ausgabeformat, der Texterkennung und PDF-Optimierungen - allesamt überdurchschnittlich gut dokumentiert in der Kommandozeilenhilfe.

Und nur für alle Fälle, es stand in diesem Text zwar schon zweimal implizit, aber ... nun, vielleicht besser nochmal explizit: Das neue Dokument ist durchsuchbar, nicht editierbar ;)

Oder Ihr versucht Euer Glück mit sowas hier - auch wenn der eine negative Kommentar ziemlich abturnend klingt ...

7% sparen
PDF Converter Ultimate - PDFs umwandeln und bearbeiten für Windows 11 /10 / 8.1/ 8 / 7
29,99 €
27,99 €
(Stand: 27.03.2025 18:53 - Details)
Verkäufer: software and more
Zum Angebot bei Amazon ↗ *
(* = Affiliate-Link / Bildquelle: Amazon-Partnerprogramm)
×
Produktpreise und -verfügbarkeit sind zum angegebenen Datum / Uhrzeit korrekt und können sich ändern. Alle Preis- und Verfügbarkeitsinformationen auf https://www.amazon.de/ zum Zeitpunkt des Kaufs gelten für den Kauf dieses Produkts.

Mirco Lang

Freier Journalist, Exil-Sauerländer, (ziemlich alter) Skateboarder, Dipl.-Inf.-Wirt, Einzelhandelskaufmann, Open-Source-Nerd, Checkmk-Handbuchschreiber. Ex-Saturn'ler, Ex-Data-Becker'ler, Ex-BSI'ler. Computer-Erstkontakt: ca. 1982 - der C64 des großen Bruders eines Freunds. Wenn Ihr hier mehr über Open Source, Linux und Bastelkram lesen und Tutonaut unterstützen möchtet: Über Kaffeesponsoring via Paypal.freue ich mich immer. Schon mal im Voraus: Danke! Nicht verpassen: cli.help und VoltAmpereWatt.de. Neu: Mastodon

4 Kommentare

    1. Ja, bisweilen habe ich mal einige der Tools genutzt, wenn auch nicht OCR – kann ich ebenfalls nur empfehlen! Gerade die Online-Versionen sind für mal eben echt nützlich. Zudem aus Deutschland, gibt auch Pluspunkte. Bei mir ging es bei diesem letzten Durchgang allerdings um Dokumente mit sensiblen Informationen und solche jage ich dann doch lieber durch ein Open-Source-Tool ;)

      Ach, und für alle, die es nicht kennen: PDF24.org

      1. Ich nutze PDF24 als Desktop-Programm. Das sieht mir nicht danach aus, dass da was außerhalb des Programms läuft.

      2. Wollte ich damit auch nicht andeuten, ich werde mich hüten ;) Aber unter Sicherheitsaspekten werde ich brauchbare Open-Source-Projekte immer proprietärer Software vorziehen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Schaltfläche "Zurück zum Anfang"