Linux & Co.Office & BusinessSoftware

Anleitung: Analyse von Worthäufigkeiten und Querlesen von Dokumenten

Eine grundlegende inhaltliche Analyse von Dokumentenbeständen lässt sich unter Linux mit sehr einfachen Mitteln bewerkstelligen – die Häufigkeiten einzelner Schlagwörter geben fix Überblick über Schwerpunkte. Zudem ist es die perfekte Grundlage für Visualisierungen. Außerdem könnt Ihr bequem in relevanten Absätzen stöbern, ein wenig querlesen – ähnlich wie bei X-Ray beim Kindle.

Suche nach Schlagwörtern

Alle Absätze in Harry-Potter-Romanen, in denen Hagrid vorkommt anzeigen? Kein Problem. Alle Kapitel zum Thema Statistik in Lehrbüchern? Ganz fix. In einem einfachen Beispiel sollen alle Textdateien eines bestimmten Ordners nach diversen Schlagwörtern durchsucht werden, die anschließend nach Häufigkeit sortiert ausgegeben werden:

<code>$ for f in $(ls verzeichnis/*.txt); do egrep -io "(Linux|Windows|Android)"< $f; done | sort | uniq -c | sort -n </code>

Die for-Schleife sorgt schlichtweg dafür, dass jede einzelne TXT-Datei im Ordner „text“ vom folgenden egrep-Statement erfasst werden. Gesucht werden von egrep nur die einzelnen Vorkommen (via "-o") der angegebenen Betriebssysteme, egal, ob groß oder klein geschrieben (via "-i"). Die resultierende Wortliste wird nun erst mit sort sortiert, dann erkennt uniq nebeneinander liegende doppelte Zeilen/Wörter und gibt sie samt Anzahl aus – dank des zweiten sort-Befehls aufsteigend sortiert nach Häufigkeit.

analyse
Querlesen auf der Kommandozeile.

egrep effizient einsetzen

Mit zwei kleinen Modifikationen erhaltet Ihr ein komplett anderes Ergebnis:

$ for f in $(ls verzeichnis/*.txt); do egrep -i --color=always "(Linux|Windows|Android)"< $f; done | sort | uniq -c | sort -n | fmt -t

Ohne die „-o“-Option gibt egrep nun nicht bloß den übereinstimmenden String aus, sondern jeweils die ganze Zeile, die den String enthält, also in der Regel Absätze – die durch das angehängte fmt gleichmäßig formatiert werden. Mittels „-t“ rückt fmt die ersten Zeilen der Absätze anders ein, sodass sich im Ergebnis gut stöbern lässt. Natürlich ließe sich das ganze auch anders lösen und ebenso natürlich könnten hier noch allerhand Verfeinerungen durchgeführt werden, aber um schnell mal in den Lehrmaterialien der letzten Semester zu stöbern oder Eure Lieblingsorte aus Romanen zu besuchen, genügt es allemal - TXT-Dateien vorausgesetzt, aber die lassen sich ja erstellen, etwa aus PDFs.

analyse
Querlesen auf der Kommandozeile - dafür aber auch in Hunderten Texten gleichzeitig. Lesen nach Thema, statt nach Dokument - funktioniert eher nicht immer ...

Übrigens: Mit den richtigen Tools geht das ganze natürlich auch unter Windows.

Mirco Lang

Freier Journalist, Exil-Sauerländer, (ziemlich alter) Skateboarder, Dipl.-Inf.-Wirt, Einzelhandelskaufmann, Open-Source-Nerd, Checkmk-Handbuchschreiber. Ex-Saturn'ler, Ex-Data-Becker'ler, Ex-BSI'ler. Computer-Erstkontakt: ca. 1982 - der C64 des großen Bruders eines Freunds. Wenn Ihr hier mehr über Open Source, Linux und Bastelkram lesen und Tutonaut unterstützen möchtet: Über Kaffeesponsoring via Paypal.freue ich mich immer. Schon mal im Voraus: Danke! Nicht verpassen: cli.help und VoltAmpereWatt.de. Neu: Mastodon

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.

Schaltfläche "Zurück zum Anfang"
Schließen

Ooopsi!

Bitte deaktiviere Deinen Adblocker.