Wie LLMs die OCR-basierte Dokumentenanalyse revolutionieren
Veröffentlicht 02. Dezember 2025
Bild generiert von Google Gemini
Einleitung
Unter OCR (Optical Character Recognition) versteht man einen bestimmten Prozess zur Digitalisierung von Texten, der Name rührt daher, dass der Computer anhand der Form (Optical) einzelner Zeichen (Character) erkennt, um welches Symbol es sich handelt und diese zu einem String zusammenfügt.
Dieser Prozess liegt den meisten offenen und kommerziellen Softwarelösungen für die Digitalisierung von Texten zugrunde. Zur Frustration eines Großteils der Entwickler und Anwender führt dieser Ansatz immer wieder zu Problemen: Ein nicht perfekter Scan, eine ungewöhnliche Schriftart oder gar eine schlechte Handschrift und die Ergebnisse lassen zu wünschen übrig.
Möchte man mehr einlesen als puren Fließtext, so ist ein nicht unerheblicher Entwicklungsaufwand notwendig, damit der Text entsprechend dem Layout oder der Struktur der Daten eingelesen wird. Eine weitere Quelle für Frustration ist, dass jedes Zeichen unabhängig von seinem Kontext verarbeitet wird. So ist es beispielsweise für jeden Leser offensichtlich, welches Zeichen hier fehlt:
für eine OCR Engine allerdings nicht.
Ist das Zeichen unklar geschrieben, wird es nicht richtig erkannt, egal in welchem Kontext es steht. Genau dieses kontextbezogene Verarbeiten ist seit der Entwicklung von LLMs auch für Computer möglich.
Moderne LLMs können zudem längst nicht mehr nur Text verarbeiten: Sogenannte Multimodale Modelle interpretieren eine Vielzahl von Formaten gleichzeitig.
Diese Umstände haben es ermöglicht, dass Modelle speziell dafür entwickelt und trainiert wurden, um Text zu digitalisieren. Diese Modelle teilen die Unzulänglichkeiten von klassischen OCR-Engines nicht, wie wir uns im Folgenden genauer ansehen werden.
Für unseren Vergleich stellen wir zwei Ansätze gegenüber:
- Die 'klassische' Pipeline: Wir nutzen Tesseract, kombiniert mit den essenziellen Vorverarbeitungsschritten (via OpenCV), die es für eine saubere Texterkennung benötigt – primär die Umwandlung in ein klares Schwarz-Weiß-Bild (Binarisierung).
- Die 'moderne' Pipeline: Wir verwenden das multimodale Modell dots.ocr, das wir auf einem unserer Server ausgerollt haben (Eine Anleitung dazu folgt in unserem nächsten Blogbeitrag).
Für beide Methoden werden die Roh-Ergebnisse nicht nachbearbeitet, um einen unverfälschten Vergleich zu ermöglichen. Die genauen Implementierungen sind zur Einsicht auf unserem GitHub hinterlegt.
Historische Daten
Beschädigte Dokumente
Eines der größten Probleme für Historiker sind gealterte Dokumente, die in vielen Fällen nicht einmal im Original vorliegen, um Beschädigungen zu vermeiden. Es ist für Historiker also durchaus üblich, mit nicht optimalen Fotografien von schlecht erhaltenen Dokumenten zu arbeiten. Das Beispiel, das wir hier verwenden werden, ist gut erhalten, das Alter des Dokuments ist allerdings deutlich erkennbar.
In diesem Beispiel ist der Unterschied zwischen der klassischen und der modernen Pipeline relativ gering,es ist aber bereits erkennbar, dass das LLM Fehler nicht macht, die wir bei der klassischen OCR finden. Beispielsweise finden wir im Ergebnis der klassischen OCR Stellen wie Gi ET In, DOKUMENT? NO" I oder &ine Verfanzunggebende, diese Stellen werden von dots.ocr korrekt als Frankfurt am Main, # DOKUMENT NO I und eine Verfassunggebende erkannt. Trotz des Alters des Dokuments ist der Scan von guter Qualität. Wenn wir nun, um einen schlechteren Scan zu simulieren, das Dokument um ein paar Grad drehen, verändert sich das Ergebnis drastisch.
Klassische Pipeline (Tesseract)
Gi ET In
DOKUMENT? NO" I
In Vereinstimmung mit den Beschlüssen ihrer Regierungen autorisierei
Kilitär-Gowverneure der Amerikanischen, Britischen und Franzöei-
schen Besatzungszone in Deutschland Ale Minister-Präsidenten der Län-
dcr ihrer Zonen, &ine Verfanzunggebende Versammlung einzuberufen, die
spätestens am 1. September 1948 zusam ich sollte. Me Abgsora-
oten zu AMaser Vorsannlung worden in jeden der bostehenden Tänder
Hich”den Verfahren und Richtlinien ausgewählt, Ale durch äle gosetz-
gobende Körperschaft in jeden dieser Länder angenommen werden. Die
Gesamtzahl der Abgeoräneten zur Verfussunggebenden Versammlung wird
bestimut, inden die Gesamtzahl dev Bevölkerung nach der letzten Volte
Zählung dureh T50 000 oder eine ähnliche von den Minister-Präsiäsnten
vorgeschlagene und von den Militär-Gouverneuren gebilligte Zahl ge-
teilt wird, Die Anzahl der Abgeordneten von jedem Lend wird im sel-
den Verhältnis zur Gesamtzahl der Mitglieder der Verfassunggehonden
Versammlung stehen, wie seine Bevölkerung zur Gosamiber Bevölkerung der ı
beteiligten Länder,
Die Verfassunggebende Versammlung wird eine demokratische Verfassung
ausarbeiten, &lo für die beteiligten Bänder eine Regierungsfom des
fö=ieralistischen Typs schafft, die am besten geeignet ä
kenwärtig zerrishe deutsche Einheit schliesslich wieder heraustel-
In, und die Rechte dor beteiligten Länder schützt, eine angenesse-
ne Zemtral-Inptauz schafft, und Garantien der individuellen Rechte
und Freiheiten enthält.
Wenn die Verfassung in dor von der Vorfassunggebenden Versamulung
ausgearbeiteten Form mit diesen allgemelnen Grundsätzen nicht in Wi-
Aszopzuch steht, werden die Mil1tär-Gourerneure ihre Vorlage zur
Batifielorung genehmigen, Die Verfassunggebende Versammlung wird
deraufutn aufgelöst. Die Natitisierung in Jedem beteiligten land
erfolgt durch ein Referanäun, das eins enifache liehrneit der Abstin-
menden in jedem Land erfordert; nach von jedem Land jeweils anzunch-
menden Regeln und Verfahren. Sobald die Verfassung von zuei Dritteln
der Länder ratifiztert Sat, tritt sie in Eraft und ist Tir alle Län-
der bindend, Teda Abänderung der Verfassung muB künftig von einer
Bleichen Mehrheit der Länder rattfiniert werden. Innerhalb von 30
Tagen nach dem Iniwertiweten der Verfassung sollen die darin vor-
geschenen Einrichtungen geschaffen sein.
Moderne Pipeline (dots.ocr)
Frankfurt am Main
# DOKUMENT NO I
In Übereinstimmung mit den Beschlüssen ihrer Regierungen autorisierten
die Militär-Gouverneure der Amerikanischen, Britischen und Französi-
schen Besatzungszone in Deutschland die Minister-Präsidenten der Läu-
der ihrer Zonen, eine Verfassunggebende Versammlung einzuberufen, die
spätestens am 1. September 1948 zusammentreten sollte. Die Abgeord-
deten zu dieser Versammlung werden in jedem der bestehenden Länder
nach den Verfahren und Richtlinien ausgewählt, die durch die gesetz-
gebende Körperschaft in jedem dieser Länder angenommen werden. Die
Gesamtzahl der Abgeordneten zur Verfassunggebenden Versammlung wird
bestimmt, indem die Gesamtzahl der Bevölkerung nach der letzten Volks-
zählung durch 750 000 oder eine ähnliche von den Minister-Präsidenten
vorgeschlagene und von den Militär-Gouverneuren gebilligte Zahl ge-
tzeilt wird. Die Anzahl der Abgeordneten von jedem Land wird im sel-
ben Verhältnis zur Gesamtzahl der Mitglieder der Verfassunggebenden
Versammlung stehen, wie seine Bevölkerung zur Gesamtbevölkerung der
beteiligten Länder.
Die Verfassunggebende Versammlung wird eine demokratische Verfassung
ausarbeiten, die für die beteiligten Länder eine Regierungsform des
fülleralistischen Typs schafft, die am besten geeignet ist, die ge-
genwärtig zerrissne deutsche Einheit schliesslich wieder herzustel-
len, und die Rechte der beteiligten Länder schützt, eine angemesse-
ne Zentral-Instanz schafft, und Garantien der individuellen Rechte
und Freiheiten enthält.
Wenn die Verfassung in der von der Verfassunggebenden Versammlung
ausgearbeiteten Form mit diesen allgemeinen Grundsätzen nicht in Wi-
derspruch steht, werden die Militär-Gouverneure ihre Vorlage zur
Ratifizierung genehmigen. Die Verfassunggebende Versammlung wird
daraufhin aufgelöst. Die Ratifizierung in jedem beteiligten Land
erfolgt durch ein Referendum, das eine einfache Mehrheit der Abstim-
menden in jedem Land erfordert, nach von jedem Land jeweils anzuneh-
menden Regeln und Verfahren. Sobald die Verfassung von zwei Dritteln
der Länder ratifiziert ist, tritt sie in Kraft und ist für alle Läu-
der bindend. Jede Abänderung der Verfassung muß künftig von einer
gleichen Mehrheit der Länder ratifiziert werden. Innerhalb von 30
Tagen nach dem Inkrafttreten der Verfassung sollen die darin vor-
gegebenen Einrichtungen geschaffen sein.
Die klassische Pipeline ist hier nicht mehr in der Lage, den Text zu erkennen und gibt eine leere Datei aus. Die moderne Pipeline allerdings liefert noch ein Ergebnis, das sich im Vergleich zu dem guten Scan zwar etwas verschlechtert hat, aber die Nacharbeit, die an dieser Datei zu leisten wäre, steht in keinem Vergleich zu dem Aufwand, den es bereiten würde, die klassische Pipeline so anzupassen, dass sie auch mit verdrehten Scans umgehen kann.
Kaufmännische Daten & Behördliche Prozesse
Sowohl im kaufmännischen Bereich als auch bei Behörden ist Struktur häufig genauso wichtig wie der Inhalt selbst. Im Kontext einer Excel-Tabelle beispielsweise liegt die Bedeutung nicht nur im Text, sondern auch in der Anordnung der Daten in Zeilen und Spalten. In abgeschwächter Form ist das auch bei Formularen wie Anträgen der Fall. Für diese Umstände existieren spezialisierte OCR-Engines, die den Arbeitsaufwand, eine Pipeline für ein spezifisches Tabellenformat oder ein spezifisches Formular aufzubauen, deutlich erleichtern. Dennoch ist der Arbeitsaufwand nicht trivial. Unsere moderne Lösung muss hier nicht angepasst werden, um einen Output zu generieren, der von ausreichender Qualität ist, um an anderer Stelle weiter verarbeitet zu werden. Wie im folgenden Beispiel einer Rechnung.
Klassische Pipeline (Tesseract)
Musterfirma GmbH - Musterstraße 12 — 12345 Musterstadt
Max Mustermann
Musterweg 3
11111 Musterhausen
Deutschland
Rechnung
Rechnungsdatum: 11.05.2017
Lieferdatum/Leistungsdatum: 11.05.2017
Ihre Ansprechperson: Max Mustermann
E-Mail: max.mustermann@example.com
Telefon: 030 1234 5678 12
Rechnungsnummer: 1 Kundennummer: 12345 Datum: 15.11.2025
Sehr geehrter Herr Mustermann,
vielen Dank für Ihr Vertrauen in die Musterfirma GmbH. Hiermit stellen wir Ihnen folgende Leistungen in
Rechnung:
Bezeichnung
Produkt A
Produkt B
Produkt C
Nettobetrag
zzgl. Umsatzsteuer 19%
Rechnungsbetrag
275,00 €
52,25€
327,25 €
Der Gesamtbetrag ist bis zum 25.12.2025 mit dem Verwendungszweck 1 auf unser unten genanntes
Konto zu zahlen.
Mit freundlichen Grüßen
Musterfirma GmbH
Musterfirma GmbH Bank: Muster Bank Tel.: 030 1234 5678
Musterstraße 12 IBAN: DE19 1234 1234 1234 1234 12 Fax: 030 1234 5679
12345 Musterstadt BIC: ABCDEFGH E-Mail: info@example.com
Deutschland USt.-IdNr.: DE123456789 Website: www.example.com
Moderne Pipeline (dots.ocr)
Musterfirma GmbH
Musterfirma GmbH – Musterstraße 12 – 12345 Musterstadt
Max Mustermann
Musterweg 3
11111 Musterhausen
Deutschland
Rechnungsdatum: 11.05.2017
Lieferdatum/Leistungsdatum: 11.05.2017
Ihre Ansprechperson: Max Mustermann
E-Mail: max.mustermann@example.com
Telefon: 030 1234 5678 12
Rechnung
Rechnungsnummer: 1
Kundennummer: 12345
Datum: 15.11.2025
Sehr geehrter Herr Mustermann,
vielen Dank für Ihr Vertrauen in die Musterfirma GmbH. Hiermit stellen wir Ihnen folgende Leistungen in Rechnung:
<table><thead><tr><th>Pos.</th><th>Bezeichnung</th><th>Menge</th><th>Einheit</th><th>Einzelpreis</th><th>Gesamtpreis</th></tr></thead><tbody><tr><td>1.</td><td>Produkt A</td><td>15</td><td>Stück</td><td>10,00 €</td><td>150,00 €</td></tr><tr><td>2.</td><td>Produkt B</td><td>10</td><td>Stück</td><td>5,00 €</td><td>50,00 €</td></tr><tr><td>3.</td><td>Produkt C</td><td>3</td><td>Stück</td><td>25,00 €</td><td>75,00 €</td></tr><tr><td></td><td></td><td></td><td></td><td></td><td></td></tr><tr><td></td><td></td><td></td><td></td><td></td><td></td></tr></tbody></table>
Nettobetrag 275,00 €
zzgl. Umsatzsteuer 19% 52,25 €
Rechnungsbetrag 327,25 €
Der Gesamtbetrag ist bis zum 25.12.2025 mit dem Verwendungszweck 1 auf unser unten genanntes Konto zu zahlen.
Mit freundlichen Grüßen
Musterfirma GmbH
Die Struktur der Daten geht bei der klassischen Lösung beinahe vollständig verloren. Für einen Menschen mag es noch nachvollziehbar sein, wie die Struktur in der Originaldatei einmal gewesen ist, aber für einen Computer ist die Ausgabe so nur mit erheblichem Programmieraufwand verarbeitbar. Zudem müsste man berücksichtigen,, dass das Layout von Rechnung zu Rechnung häufig variiert. Das Resultat der modernen Pipeline ist für einen Menschen schwerer zu lesen, behält aber die Struktur durch die Verwendung von HTML-Elementen vollständig bei. Damit ist sie im weiteren Verlauf der Pipeline deutlich einfacher zu bearbeiten.
Handschriftliche Notizen
Handschriftliche Notizen eine der größten Herausforderungen für OCR-Systeme.Die Variabilität von Handschriften ist enorm und selbst für Menschen manchmal schwer zu entziffern. Klassische OCR-Engines stoßen hier schnell an ihre Grenzen. Moderne LLM-basierte Systeme hingegen können durch ihr Training auf vielfältigen Datensätzen oft deutlich bessere Ergebnisse erzielen.
Klassische Pipeline (Tesseract)
uw ug Vet vn abe hlAltst N 100.
anne m bannen une 1.0 Sun nina tn Arno act ser um.
} .
|
=r
an arme
\
|
u -————-
I _ = > Re > [a ,b) Fr > as Zu I
nn
Eu
RL
Ä
j
Bern
I 7,110 ıN
Moderne Pipeline (dots.ocr)
Definition
Das Vektorjeder oder kveeur produkt
zweier Vektoren a, b ∈ ℝ³ ist
eine Abbildung
$\mathbb{R}^3 \times \mathbb{R}^3 \to (a, b) \mapsto axb,$
die für $a = (\alpha_1, \alpha_2, \alpha_3)^T$ und
$b = (\beta_1, \beta_2, \beta_3)^T$ definiert ist
durch:
$$axb = \begin{pmatrix} \alpha_1 \\ \alpha_2 \\ \alpha_3 \end{pmatrix} \times \begin{pmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \end{pmatrix} := \begin{pmatrix} \alpha_2 \beta_3 & -\alpha_3 \beta_2 \\ \alpha_3 \beta_1 & -\alpha_1 \beta_3 \\ \alpha_1 \beta_2 & -\alpha_2 \beta_1 \end{pmatrix}$$
Wo die klassische OCR schon an der klaren Trennung von Symbolen scheitert und semantische Zeichen wie das Kreuzprodukt nur als einfaches "x" behandelt, rekonstruiert das moderne Modell Struktur und Bedeutung in vielen Fällen. Sollte die Erkennungsgenauigkeit für einen bestimmten Einsatzzweck nicht ausreichend sein, kann bei einem OpenSource Modell natürlich auch noch ein Finetuning auf diesen speziellen Use-Case durchgeführt werden
In diesem Beispiel erkennt die klassische Pipeline die handschriftlichen Teile nicht im Ansatz. Die moderne Pipeline hingegen erkennt nicht nur die handschriftlichen Teile, sondern interpretiert auch die mathematischen Symbole korrekt und gibt eine semantisch sinnvolle Ausgabe zurück.
Technische Daten
Eine häufig auftretende Problemstellung ist es, technische Zeichnungen sinnvoll digitalisiert zu archivieren. Hier bietet das Auslesen der Daten auf der Zeichnung enormes Potenzial für Zeitersparnisse sowie nützliche Datenbankstrukturen. Dabei treffen allerdings alle Schwächen von klassischer OCR aufeinander: Text ist in unterschiedlichen Ausrichtungen auf der Zeichnung, Metadaten befinden sich in tabellarischer Form auf dem Dokument und Position spielt eine entscheidende Rolle. Dazu kommen zum Teil ungewöhnliche Schriftbilder und alterndes Papier. Betrachten wir als Beispiel diese Zeichnung eines Wasserrads:
https://berlin.museum-digital.de/singleimage?imagenr=8978
Klassische Pipeline (Tesseract)
1200
u.
Bert)
ar
- 3500
i
4
un 2 De
(4 3 - - TI. .
‘ syn << 1 N —_ m
RSS Pa |
Fe > ! N!
& Pa i 1 ı ' L
urn 2% | \
33 g8 BR 1 \
sr“ Pa \ N ,
« N
\ Ri \ \ |ı
- Pa \ \ 5 | N I
Y \ ' \
4
1
2] ]
Mech I m. 4100.
mod
yalım Doryaymays ik?
fin Hann Dovkmamn Ihm.
Dorn
E22
>
22 _
NL,
j j
Moderne Pipeline (dots.ocr)
Wasserdampf System - Empfänger mit Klappenschlüsseln,
für den Markmann / Lüben.
Markmann 1:10 w. 1:100.
Schritt a-b
R 69
99000 X 10 A VI
Wie vorausgesagt, liefert die klassische Pipeline hier kein im Ansatz brauchbares Ergebnis. Die moderne Variante allerdings erkennt, was als Text ausgelesen werden kann und was nicht, und gibt ein brauchbares Ergebnis zurück.
Weiterverarbeitung
Noch wichtiger als das bloße Auslesen von Daten ist ihre Verarbeitung. Neben den Vorteilen, die Sprachmodelle bei der OCR bieten, gibt es auch in der weiteren Pipeline noch Möglichkeiten, das Meiste aus den digitalisierten Daten herauszuholen. So können sie nicht nur in ihrer Gesamtheit als Text gespeichert werden, sondern mit wenig Aufwand auf bestimmte Inhalte durchsucht und zur weiteren Verarbeitung in sinnvollen Formaten (z.B. .json) extrahiert werden. Ohne die Verwendung dieser Technologien ist das Arbeiten mit OCR-Ergebnissen meist zeitintensiv und fehleranfällig.
Zusammenfassung
Der Vergleich macht deutlich: Die Integration von LLMs in die OCR-Pipeline ist mehr als nur ein technisches Upgrade – es ist ein Paradigmenwechsel. Durch die multimodale Verarbeitung werden aus bloßen Pixeln direkt strukturierte, verständliche Daten.
Am Ende zählt dabei vor allem die Robustheit: Während klassische Ansätze oft schon bei minimalen Abweichungen wie einem schiefen Scan scheitern, verzeiht die moderne Pipeline Fehler im Ausgangsmaterial und liefert verlässliche Ergebnisse. Damit wandelt sich OCR von einer oft frustrierenden Fehlerquelle zu einer stabilen Basis für jede moderne Softwarearchitektur.
Einen Guide zur Implementierung von LLM-basierter OCR-Pipelines wird in unserem nächsten Artikel verfügbar sein.