Die beiden häufigsten Quellen für PDFs: Office-Programme und Fotos. Werden Dokumente aus sowas wie Word exportiert oder gedruckt, bestehen die PDFs aus echtem Text - durchsuch- und editierbar. Werden Dokumente abfotografiert, enthalten PDFs einfach nur ein Bild. Per Texterkennung lässt sich dann eine Text-Ebene hinzufügen, die das PDF durchsuchbar machen. Und hier nun der wohl einfachste Weg, wenn Ihr das mit vielen Dokumenten machen wollt.

Batch-Texterkennung

Das Tool der Wahl heißt hier OCRmyPDF und ist für Windows und Linux verfügbar. Die Dokumentation samt Installationsanleitung findet Ihr hier. OCRmyPDF fügt dem Original-PDF eine Ebene mit erkanntem Text hinzu und speichert dann standardmäßig als PDF/A (Langzeitarchivierung).

Die Installation unter Linux, zum Beispiel Ubuntu:

sudo apt install ocrmypdf

Unter Windows sind es ein paar Kommandos mehr, schaut besser in die Doku.

Ein einzelner Aufruf könnte dann zum Beispiel so aussehen:

ocrmypdf --pdfa-image-compression lossless mein-dokument.pdf mein-dokument_ocr.pdf

Einzige Option hier: Die pdfa-image-compression soll lossless sein, sprich es soll verlustfrei komprimiert werden.

Und um nun alle PDFs im aktuellen Ordner zu verarbeiten und jeweils unter dem Originalnamen plus _ocr vor der Dateiendung zu speichern:

for i in $(ls *.pdf); do ocrmypdf --pdfa-image-compression lossless "$i" $(basename "${i%.*}")_ocr.pdf; done

Die übliche for-Schleife: Für jede PDF-Datei ($i) wird der ocrmypdf-Befehl ausgeführt, fertig. Einzig der basename-Befehl könnte Euch komisch vorkommen: Der zieht einfach nur den Dateinamen ohne die Erweiterung (.pdf) - mehr dazu in einem eigenen Artikel.

OCRmyPDF hat einige interessante Optionen, etwa zum Ausgabeformat, der Texterkennung und PDF-Optimierungen - allesamt überdurchschnittlich gut dokumentiert in der Kommandozeilenhilfe.

Und nur für alle Fälle, es stand in diesem Text zwar schon zweimal implizit, aber ... nun, vielleicht besser nochmal explizit: Das neue Dokument ist durchsuchbar, nicht editierbar ;)

Oder Ihr versucht Euer Glück mit sowas hier - auch wenn der eine negative Kommentar ziemlich abturnend klingt ...

PDF Converter Ultimate - PDFs umwandeln in Word und Excel für Windows 11, 10, 8.1, 7

Nicht verfügbar

Bei Amazon ansehen

Täglich Technik-Schnäppchen bei Amazon – hier klicken!

Mirco Lang 6. März 2025Zuletzt aktualisiert: 6. März 2025

4 Kommentare

Axel sagt:

7. März 2025 um 18:39 Uhr

Kennst du die OCR-Stapelverarbeitung von PDF24? Klappt super.

Antworten
1. Mirco Lang sagt:
  
  7. März 2025 um 21:59 Uhr
  
  Ja, bisweilen habe ich mal einige der Tools genutzt, wenn auch nicht OCR – kann ich ebenfalls nur empfehlen! Gerade die Online-Versionen sind für mal eben echt nützlich. Zudem aus Deutschland, gibt auch Pluspunkte. Bei mir ging es bei diesem letzten Durchgang allerdings um Dokumente mit sensiblen Informationen und solche jage ich dann doch lieber durch ein Open-Source-Tool ;)
  
  Ach, und für alle, die es nicht kennen: PDF24.org
  
  Antworten
  1. Axel sagt:
    
    8. März 2025 um 18:50 Uhr
    
    Ich nutze PDF24 als Desktop-Programm. Das sieht mir nicht danach aus, dass da was außerhalb des Programms läuft.
    
    Antworten
    1. Mirco Lang sagt:
      
      9. März 2025 um 21:17 Uhr
      
      Wollte ich damit auch nicht andeuten, ich werde mich hüten ;) Aber unter Sicherheitsaspekten werde ich brauchbare Open-Source-Projekte immer proprietärer Software vorziehen.
      
      Antworten

PDF: Texterkennung stapelweise für Windows und Linux

PDFs sollen durchsuchbar sein? Zum Beispiel fotografierte Dokumente? So geht's mit großen Mengen

Batch-Texterkennung

Mirco Lang

4 Kommentare

Schreibe einen Kommentar Antwort abbrechen

Batch-Texterkennung

4 Kommentare

Schreibe einen Kommentar Antwort abbrechen

Verwandte Artikel