Zum Hauptinhalt springen
Zurück zum Blog
5 Min. Lesezeit

PDF in Text umwandeln — PDF-Inhalte extrahieren und weiterverwenden

PDFs sehen gut aus, sperren aber Inhalte weg. Auf dem Bildschirm kannst du sie lesen — sobald du jedoch einen Absatz in eine E-Mail kopieren, dokumentübergreifend suchen oder Inhalte in ein Schreibtool einfügen willst, sperrt sich das starre Layout. Ein PDF in Klartext umzuwandeln, knackt dieses Schloss und liefert dir rohen, bearbeitbaren Inhalt.

Wann es sinnvoll ist, Text aus einem PDF zu ziehen

Häufige Szenarien:

  • Inhalt wiederverwenden — eine längere Passage in einem Bericht, einer E-Mail oder einer Präsentation zitieren
  • Über Dokumente hinweg suchen — Klartext lässt sich schneller indexieren und ist auch für Tools durchsuchbar, die kein PDF lesen
  • An KI-Tools weitergeben — ChatGPT, Claude und ähnliche Tools arbeiten mit sauberem Text besser als mit rohen PDFs
  • Übersetzungs-Workflows — Übersetzungstools wollen meist Klartext als Eingabe
  • Barrierefreiheit — Screenreader und Hilfstechnologien kommen mit Text besser zurecht als mit komplexen PDF-Layouts
  • Datenextraktion — strukturierte Informationen (Namen, Daten, Beträge) für Tabellen herausziehen
  • Klartext-Archive — Langzeitarchive, die zukünftige Formatwechsel überstehen

Zwei Arten von PDFs (das ist wichtig)

Nicht jedes PDF ist beim Textextrahieren gleich:

1. Textbasierte PDFs — Erstellt mit Word, Google Docs, LaTeX, „Als PDF drucken" aus dem Browser oder jedem Tool, das echten Textinhalt produziert. Der Text ist als echte Zeichen gespeichert, die Extraktion ist schnell und genau.

2. Bildbasierte (eingescannte) PDFs — Erstellt mit Scannern, „Foto vom Dokument"-Apps oder älteren Faxgeräten. Jede Seite ist im Wesentlichen ein Bild; es gibt keine echten Zeichen zum Extrahieren. Du brauchst zuerst OCR (optische Zeichenerkennung), um die Bilder in Text umzuwandeln.

Schneller Test: Öffne das PDF und versuche, einen Absatz mit dem Cursor zu markieren. Wenn der Text sauber markiert wird, ist es textbasiert. Wenn ein blaues Rechteck um die ganze Seite erscheint, ist es bildbasiert und braucht OCR.

Dieser Artikel konzentriert sich auf textbasierte PDFs. Für eingescannte PDFs brauchst du zuerst ein dediziertes OCR-Tool.

Kostenlose Methoden, PDF in Text umzuwandeln

Methode 1: Kopieren und Einfügen

Öffne das PDF in einem beliebigen Reader, alles markieren (⌘/Strg + A), kopieren, in einen Texteditor einfügen. Funktioniert für kurze Dokumente, aber:

  • Seitenumbrüche verschwinden meistens
  • Formatierungen wie Spalten und Tabellen werden zerstückelt
  • Kopf- und Fußzeilen werden in den Fließtext eingebaut
  • Mit Bindestrich am Zeilenende getrennte Wörter bleiben oft getrennt

Gut für ein, zwei Absätze; mühsam für ein ganzes Dokument.

Methode 2: macOS Vorschau (Als Text exportieren)

Vorschau kann exportieren, aber der Klartext-Export wurde in neueren macOS-Versionen entfernt. Workaround: in Vorschau öffnen → Ablage → Exportieren → PDF wählen (mit Textannotationen) → dann den Text kopieren. Oder ein Drittanbieter-Tool benutzen.

Methode 3: Adobe Acrobat (kostenpflichtig)

Datei → Exportieren in → Text (Plain) — erzeugt eine `.txt`-Datei. Der kostenlose Acrobat Reader hat diese Funktion nicht.

Methode 4: Kommandozeile (pdftotext)

Die Poppler-Suite bringt `pdftotext` mit:

``` pdftotext input.pdf output.txt ```

Mit `-layout` bleibt das Spaltenlayout erhalten, mit `-raw` gibt's die roheste Extraktion. Hervorragende Qualität und super für Batch-Skripte.

Methode 5: Browserbasierte Tools

Die zugänglichste Option für nicht-technische Nutzer. Unser PDF-zu-Text-Tool extrahiert Text aus jedem PDF, lässt dich das Ergebnis vorab ansehen, in die Zwischenablage kopieren oder als `.txt`-Datei herunterladen. Das PDF wird komplett in deinem Browser verarbeitet — nichts wird hochgeladen.

Wie Seiten zusammengefügt werden

Wenn ein mehrseitiges PDF zu einer Textdatei wird, musst du entscheiden, was an Seitengrenzen passiert:

  • Doppelter Zeilenumbruch (empfohlen) — fügt eine Leerzeile zwischen Seiten ein. Bewahrt den Lesefluss, lässt Seiten aber unterscheidbar.
  • Einfacher Zeilenumbruch — geringere Trennung; behandelt das Dokument als durchgehenden Strom.
  • Form-Feed-Zeichen (`\f`) — der Unix-traditionelle Seitentrenner. Wird von vielen Editoren erhalten und ist nützlich, wenn du die Datei programmatisch verarbeitest.
  • Eigener Trenner — füge eine eigene Markierung wie `--- Seitenumbruch ---` für visuelle Klarheit ein.

Wenn du den Text einer KI oder einem Suchindex fütterst, ist einfacher oder doppelter Umbruch am besten. Wenn du ihn drucken oder als strukturiertes Dokument verarbeiten willst, gewinnen Seitenzahlen + ein klarer Trenner.

Warum die Textextraktion manchmal komisch aussieht

Selbst bei einem perfekt textbasierten PDF kann die Ausgabe Eigenheiten haben:

  • Spaltenreihenfolge — ein zweispaltiges Dokument kann erst die ganze Spalte 1, dann die ganze Spalte 2 ausgeben, oder die Zeilen abwechseln, je nachdem, wie das PDF die Textpositionen speichert
  • Lesereihenfolge — Seitenleisten, Bildunterschriften und Fußnoten können an unerwarteten Stellen auftauchen
  • Silbentrennung — am Zeilenende mit `-` getrennte Wörter bleiben oft getrennt (`Bei-spiel` statt `Beispiel`)
  • Ligaturen — `fi`-, `fl`- und `ffi`-Ligaturen werden manchmal als einzelne Zeichen extrahiert, die nicht angezeigt werden
  • Tabellen — komplexe Tabellen flachen zu linearem Text ab und verlieren Struktur
  • Kopf-/Fußzeilen — wiederholen sich auf jeder Seite der Ausgabe, wenn du sie nicht filterst
  • Sonderzeichen — Mathematische Symbole, akzentuierte Zeichen und CJK-Text brauchen einen Unicode-fähigen Viewer

Das sind Grenzen, wie PDFs Text speichern, nicht des Extraktionstools. Für saubere Ausgabe ist das Quellformat (Word, Markdown usw.) immer besser.

Bestimmte Seiten filtern

Wenn du nur Text aus bestimmten Seiten brauchst, extrahiere nur diese. Die meisten modernen Tools unterstützen Bereichssyntax wie `1-3, 5, 8-10`. Das ist schneller, als alles zu extrahieren und zu kürzen — vor allem bei langen Dokumenten, wo dich nur die Zusammenfassung oder das Fazit interessiert.

Tipps für die besten Ergebnisse

  • Pro Kapitel oder Abschnitt extrahieren — lange Dokumente sind als mehrere kleine Textdateien handhabbarer
  • Seitenzahlen einbauen als Inline-Header, wenn du auf das Original verweisen musst
  • Kopf- und Fußzeilen mit einem schnellen Suchen-und-Ersetzen im Editor entfernen
  • Eine Rechtschreibprüfung laufen lassen — fängt OCR-Fehler und Ligatur-Artefakte
  • Auch das Original-PDF aufbewahren — Textextraktion ist eine Einbahnstraße; das Layout lässt sich nicht rekonstruieren
  • Markdown für Struktur nutzen — wenn du den Text einer KI fütterst, formatiere nach der Extraktion leicht mit `#`-Überschriften und `-`-Aufzählungen

Häufige Anwendungsfälle

  • Forschungsarbeiten zitieren — Abstract und Schlüsselabsätze für eine Literaturübersicht herausziehen
  • Durchsuchbare Archive aufbauen — einen Ordner mit PDFs in Text umwandeln und mit einer Desktop-Suche indexieren
  • KI-Zusammenfassung — extrahierten Text in ein LLM für Zusammenfassung oder Q&A geben
  • Übersetzung — Text in einen Übersetzer bekommen, der keine PDFs annimmt
  • Tabellen-Imports — tabellarische Daten aus PDF-Berichten in eine CSV ziehen
  • Korrekturlesen — eigene PDFs in einem fokussierten, ablenkungsfreien Texteditor lesen

Datenschutz-Überlegungen

Textextraktions-Tools, die auf einem Server laufen, haben vollen Zugriff auf jedes Wort in deinem PDF. Für vertrauliche Dokumente — Verträge, Krankenakten, Rechtsdokumente, interne Berichte — ist die sichere Wahl ein clientseitiges Tool, das die Datei komplett im Browser liest und parst. Nichts wird über das Netzwerk geschickt, nichts protokolliert, und der extrahierte Text verlässt nie dein Gerät.

Verwandte Anleitungen