OCR mit LLMs: Moderne Texterkennung vs. klassische Methoden

Einleitung

Unter OCR (Optical Character Recognition) versteht man einen bestimmten Prozess zur Digitalisierung von Texten, der Name rührt daher, dass der Computer anhand der Form (Optical) einzelner Zeichen (Character) erkennt, um welches Symbol es sich handelt und diese zu einem String zusammenfügt.
Dieser Prozess liegt den meisten offenen und kommerziellen Softwarelösungen für die Digitalisierung von Texten zugrunde. Zur Frustration eines Großteils der Entwickler und Anwender führt dieser Ansatz immer wieder zu Problemen: Ein nicht perfekter Scan, eine ungewöhnliche Schriftart oder gar eine schlechte Handschrift und die Ergebnisse lassen zu wünschen übrig.
Möchte man mehr einlesen als puren Fließtext, so ist ein nicht unerheblicher Entwicklungsaufwand notwendig, damit der Text entsprechend dem Layout oder der Struktur der Daten eingelesen wird. Eine weitere Quelle für Frustration ist, dass jedes Zeichen unabhängig von seinem Kontext verarbeitet wird. So ist es beispielsweise für jeden Leser offensichtlich, welches Zeichen hier fehlt:

a ² + b ² = c²

für eine OCR Engine allerdings nicht.
Ist das Zeichen unklar geschrieben, wird es nicht richtig erkannt, egal in welchem Kontext es steht. Genau dieses kontextbezogene Verarbeiten ist seit der Entwicklung von LLMs auch für Computer möglich.
Moderne LLMs können zudem längst nicht mehr nur Text verarbeiten: Sogenannte Multimodale Modelle interpretieren eine Vielzahl von Formaten gleichzeitig.
Diese Umstände haben es ermöglicht, dass Modelle speziell dafür entwickelt und trainiert wurden, um Text zu digitalisieren. Diese Modelle teilen die Unzulänglichkeiten von klassischen OCR-Engines nicht, wie wir uns im Folgenden genauer ansehen werden.

Für unseren Vergleich stellen wir zwei Ansätze gegenüber:

Die 'klassische' Pipeline: Wir nutzen Tesseract, kombiniert mit den essenziellen Vorverarbeitungsschritten (via OpenCV), die es für eine saubere Texterkennung benötigt – primär die Umwandlung in ein klares Schwarz-Weiß-Bild (Binarisierung).
Die 'moderne' Pipeline: Wir verwenden das multimodale Modell dots.ocr, das wir auf einem unserer Server ausgerollt haben (Eine Anleitung dazu folgt in unserem nächsten Blogbeitrag).

Für beide Methoden werden die Roh-Ergebnisse nicht nachbearbeitet, um einen unverfälschten Vergleich zu ermöglichen. Die genauen Implementierungen sind zur Einsicht auf unserem GitHub hinterlegt.

Historische Daten

Bild generiert von Google Gemini

Beschädigte Dokumente

Eines der größten Probleme für Historiker sind gealterte Dokumente, die in vielen Fällen nicht einmal im Original vorliegen, um Beschädigungen zu vermeiden. Es ist für Historiker also durchaus üblich, mit nicht optimalen Fotografien von schlecht erhaltenen Dokumenten zu arbeiten. Das Beispiel, das wir hier verwenden werden, ist gut erhalten, das Alter des Dokuments ist allerdings deutlich erkennbar.

Historisches Dokument – Frankfurter Dokumente (Original Scan)

In diesem Beispiel ist der Unterschied zwischen der klassischen und der modernen Pipeline relativ gering,es ist aber bereits erkennbar, dass das LLM Fehler nicht macht, die wir bei der klassischen OCR finden. Beispielsweise finden wir im Ergebnis der klassischen OCR Stellen wie Gi ET In, DOKUMENT? NO" I oder &ine Verfanzunggebende, diese Stellen werden von dots.ocr korrekt als Frankfurt am Main, # DOKUMENT NO I und eine Verfassunggebende erkannt. Trotz des Alters des Dokuments ist der Scan von guter Qualität. Wenn wir nun, um einen schlechteren Scan zu simulieren, das Dokument um ein paar Grad drehen, verändert sich das Ergebnis drastisch.

Klassische Pipeline (Tesseract)

Gi ET In

DOKUMENT? NO" I

In Vereinstimmung mit den Beschlüssen ihrer Regierungen autorisierei

Kilitär-Gowverneure der Amerikanischen, Britischen und Franzöei-

schen Besatzungszone in Deutschland Ale Minister-Präsidenten der Län-

dcr ihrer Zonen, &ine Verfanzunggebende Versammlung einzuberufen, die

spätestens am 1. September 1948 zusam ich sollte. Me Abgsora-

oten zu AMaser Vorsannlung worden in jeden der bostehenden Tänder

Hich”den Verfahren und Richtlinien ausgewählt, Ale durch äle gosetz-

gobende Körperschaft in jeden dieser Länder angenommen werden. Die

Gesamtzahl der Abgeoräneten zur Verfussunggebenden Versammlung wird

bestimut, inden die Gesamtzahl dev Bevölkerung nach der letzten Volte

Zählung dureh T50 000 oder eine ähnliche von den Minister-Präsiäsnten

vorgeschlagene und von den Militär-Gouverneuren gebilligte Zahl ge-

teilt wird, Die Anzahl der Abgeordneten von jedem Lend wird im sel-

den Verhältnis zur Gesamtzahl der Mitglieder der Verfassunggehonden

Versammlung stehen, wie seine Bevölkerung zur Gosamiber Bevölkerung der ı

beteiligten Länder,

Die Verfassunggebende Versammlung wird eine demokratische Verfassung

ausarbeiten, &lo für die beteiligten Bänder eine Regierungsfom des

fö=ieralistischen Typs schafft, die am besten geeignet ä

kenwärtig zerrishe deutsche Einheit schliesslich wieder heraustel-

In, und die Rechte dor beteiligten Länder schützt, eine angenesse-

ne Zemtral-Inptauz schafft, und Garantien der individuellen Rechte

und Freiheiten enthält.

Wenn die Verfassung in dor von der Vorfassunggebenden Versamulung

ausgearbeiteten Form mit diesen allgemelnen Grundsätzen nicht in Wi-

Aszopzuch steht, werden die Mil1tär-Gourerneure ihre Vorlage zur

Batifielorung genehmigen, Die Verfassunggebende Versammlung wird

deraufutn aufgelöst. Die Natitisierung in Jedem beteiligten land

erfolgt durch ein Referanäun, das eins enifache liehrneit der Abstin-

menden in jedem Land erfordert; nach von jedem Land jeweils anzunch-

menden Regeln und Verfahren. Sobald die Verfassung von zuei Dritteln

der Länder ratifiztert Sat, tritt sie in Eraft und ist Tir alle Län-

der bindend, Teda Abänderung der Verfassung muB künftig von einer

Bleichen Mehrheit der Länder rattfiniert werden. Innerhalb von 30

Tagen nach dem Iniwertiweten der Verfassung sollen die darin vor-

geschenen Einrichtungen geschaffen sein.

Moderne Pipeline (dots.ocr)

Frankfurt am Main

# DOKUMENT NO I

In Übereinstimmung mit den Beschlüssen ihrer Regierungen autorisierten

die Militär-Gouverneure der Amerikanischen, Britischen und Französi-

schen Besatzungszone in Deutschland die Minister-Präsidenten der Läu-

der ihrer Zonen, eine Verfassunggebende Versammlung einzuberufen, die

spätestens am 1. September 1948 zusammentreten sollte. Die Abgeord-

deten zu dieser Versammlung werden in jedem der bestehenden Länder

nach den Verfahren und Richtlinien ausgewählt, die durch die gesetz-

gebende Körperschaft in jedem dieser Länder angenommen werden. Die

Gesamtzahl der Abgeordneten zur Verfassunggebenden Versammlung wird

bestimmt, indem die Gesamtzahl der Bevölkerung nach der letzten Volks-

zählung durch 750 000 oder eine ähnliche von den Minister-Präsidenten

vorgeschlagene und von den Militär-Gouverneuren gebilligte Zahl ge-

tzeilt wird. Die Anzahl der Abgeordneten von jedem Land wird im sel-

ben Verhältnis zur Gesamtzahl der Mitglieder der Verfassunggebenden

Versammlung stehen, wie seine Bevölkerung zur Gesamtbevölkerung der

beteiligten Länder.

Die Verfassunggebende Versammlung wird eine demokratische Verfassung

ausarbeiten, die für die beteiligten Länder eine Regierungsform des

fülleralistischen Typs schafft, die am besten geeignet ist, die ge-

genwärtig zerrissne deutsche Einheit schliesslich wieder herzustel-

len, und die Rechte der beteiligten Länder schützt, eine angemesse-

ne Zentral-Instanz schafft, und Garantien der individuellen Rechte

und Freiheiten enthält.

Wenn die Verfassung in der von der Verfassunggebenden Versammlung

ausgearbeiteten Form mit diesen allgemeinen Grundsätzen nicht in Wi-

derspruch steht, werden die Militär-Gouverneure ihre Vorlage zur

Ratifizierung genehmigen. Die Verfassunggebende Versammlung wird

daraufhin aufgelöst. Die Ratifizierung in jedem beteiligten Land

erfolgt durch ein Referendum, das eine einfache Mehrheit der Abstim-

menden in jedem Land erfordert, nach von jedem Land jeweils anzuneh-

menden Regeln und Verfahren. Sobald die Verfassung von zwei Dritteln

der Länder ratifiziert ist, tritt sie in Kraft und ist für alle Läu-

der bindend. Jede Abänderung der Verfassung muß künftig von einer

gleichen Mehrheit der Länder ratifiziert werden. Innerhalb von 30

Tagen nach dem Inkrafttreten der Verfassung sollen die darin vor-

gegebenen Einrichtungen geschaffen sein.

Historisches Dokument – Frankfurt (Verdrehter Scan)

Die klassische Pipeline ist hier nicht mehr in der Lage, den Text zu erkennen und gibt eine leere Datei aus. Die moderne Pipeline allerdings liefert noch ein Ergebnis, das sich im Vergleich zu dem guten Scan zwar etwas verschlechtert hat, aber die Nacharbeit, die an dieser Datei zu leisten wäre, steht in keinem Vergleich zu dem Aufwand, den es bereiten würde, die klassische Pipeline so anzupassen, dass sie auch mit verdrehten Scans umgehen kann.

Frankfurt Fokument T. DOKUMENT NO. I In Übereinstimmung mit den Beschlussen ihrer Regierungen autorisierten die Militär-Gouverneure der Amerikanischen, Britischen und Französischen Besatzungszone in Deutschland die Minister-Präsidenten der Länder der ihrer Zonen, eine Verfassunggebende Versammlung einzuberufen, die spitztesten am 1. September 1948 zusammentreten sollte. Die Abgeord- deten zu dieser Versammlung werden in jedem der bestehenden Länder nach den Verfahren und Richtlinien ausgewählt, die durch die gesetz- gebende Körperschaft in jedem dieser Länder angenommen werden. Die Gesamtzahl der Abgeordneten zur Verfassunggebenden Versammlung wird bestimmt, indem die Gesamtzahl der Bevölkerung nach der letzten Volke- zahlung durch 750 000 oder eine Höhnliche von den Minister-Präsidenten vorgeschlagene und von den Militär-Gouverneuren gebilligte Zahl im ge- töilt wird. Die Anzahl der Abgeordneten von jedem Land wird im sel- ben Verhältnis zur Gesamtzahl der Mitglieder der Verfassunggebenden Versammlung stehen, wie seine Bevölkerung zur Gesamtbevölkerung der beteiligten Länder. Die Verfassunggebende Versammlung wird eine demokratische Verfassung ausarbeiten, die für die beteiligten Länder eine Regierungsform des für liberalistischen Typs schafft, die am besten geeignet ist, die ge- genwärtig zerrissene deutsche Einheit schliesslich wieder herzustel- len, und die Rechte der beteiligten Länder schützt, eine angemess- ne Zentral-Instanz schafft, und Garantien der individuellen Rechte und Freiheiten enthält. Wenn die Verfassung in der von der Verfassunggebenden Versammlung ausgearbeiteten Form mit diesen allgemeinen Grundsätzen nicht in Wi- derspruch steht, werden die Militär-Gouverneure ihre Vorlage zur Ratifizierung genehmigen. Die Verfassunggebende Versammlung wird daraufhin aufgelöst. Die Ratifizierung in jedem beteiligten Land erfolgt durch ein Referendum, das eine einfache Mehrheit der Abstin- menden Regeln und Verfahren. Sobald die Verfassung und ist für alle Län- der der Länder ratifiziert ist, tritt sie in Kraft und ist für einer der bindend. Jede Abänderung der Verfassung muss künftig von einer gleichen Mehrheit der Länder ratifiziert werden. Innerhalb von 30 Tagen nach dem Inkrafttreten der Verfassung sollen die darin vor- geschenen Einrichtungen geschaffen sein.

Kaufmännische Daten & Behördliche Prozesse

Bild generiert von Google Gemini

Sowohl im kaufmännischen Bereich als auch bei Behörden ist Struktur häufig genauso wichtig wie der Inhalt selbst. Im Kontext einer Excel-Tabelle beispielsweise liegt die Bedeutung nicht nur im Text, sondern auch in der Anordnung der Daten in Zeilen und Spalten. In abgeschwächter Form ist das auch bei Formularen wie Anträgen der Fall. Für diese Umstände existieren spezialisierte OCR-Engines, die den Arbeitsaufwand, eine Pipeline für ein spezifisches Tabellenformat oder ein spezifisches Formular aufzubauen, deutlich erleichtern. Dennoch ist der Arbeitsaufwand nicht trivial. Unsere moderne Lösung muss hier nicht angepasst werden, um einen Output zu generieren, der von ausreichender Qualität ist, um an anderer Stelle weiter verarbeitet zu werden. Wie im folgenden Beispiel einer Rechnung.

Beispielrechnung – Kaufmännische Struktur

Klassische Pipeline (Tesseract)

Musterfirma GmbH - Musterstraße 12 — 12345 Musterstadt

Max Mustermann

Musterweg 3

11111 Musterhausen

Deutschland

Rechnung

Rechnungsdatum: 11.05.2017

Lieferdatum/Leistungsdatum: 11.05.2017

Ihre Ansprechperson: Max Mustermann

E-Mail: max.mustermann@example.com

Telefon: 030 1234 5678 12

Rechnungsnummer: 1 Kundennummer: 12345 Datum: 15.11.2025

Sehr geehrter Herr Mustermann,

vielen Dank für Ihr Vertrauen in die Musterfirma GmbH. Hiermit stellen wir Ihnen folgende Leistungen in

Rechnung:

Bezeichnung

Produkt A

Produkt B

Produkt C

Nettobetrag

zzgl. Umsatzsteuer 19%

Rechnungsbetrag

275,00 €

52,25€

327,25 €

Der Gesamtbetrag ist bis zum 25.12.2025 mit dem Verwendungszweck 1 auf unser unten genanntes

Konto zu zahlen.

Mit freundlichen Grüßen

Musterfirma GmbH

Musterfirma GmbH Bank: Muster Bank Tel.: 030 1234 5678

Musterstraße 12 IBAN: DE19 1234 1234 1234 1234 12 Fax: 030 1234 5679

12345 Musterstadt BIC: ABCDEFGH E-Mail: info@example.com

Deutschland USt.-IdNr.: DE123456789 Website: www.example.com

Moderne Pipeline (dots.ocr)

Musterfirma GmbH

Musterfirma GmbH – Musterstraße 12 – 12345 Musterstadt

Max Mustermann

Musterweg 3

11111 Musterhausen

Deutschland

Rechnungsdatum: 11.05.2017

Lieferdatum/Leistungsdatum: 11.05.2017

Ihre Ansprechperson: Max Mustermann

E-Mail: max.mustermann@example.com

Telefon: 030 1234 5678 12

Rechnung

Rechnungsnummer: 1

Kundennummer: 12345

Datum: 15.11.2025

Sehr geehrter Herr Mustermann,

vielen Dank für Ihr Vertrauen in die Musterfirma GmbH. Hiermit stellen wir Ihnen folgende Leistungen in Rechnung:

<table><thead><tr><th>Pos.</th><th>Bezeichnung</th><th>Menge</th><th>Einheit</th><th>Einzelpreis</th><th>Gesamtpreis</th></tr></thead><tbody><tr><td>1.</td><td>Produkt A</td><td>15</td><td>Stück</td><td>10,00 €</td><td>150,00 €</td></tr><tr><td>2.</td><td>Produkt B</td><td>10</td><td>Stück</td><td>5,00 €</td><td>50,00 €</td></tr><tr><td>3.</td><td>Produkt C</td><td>3</td><td>Stück</td><td>25,00 €</td><td>75,00 €</td></tr><tr><td></td><td></td><td></td><td></td><td></td><td></td></tr><tr><td></td><td></td><td></td><td></td><td></td><td></td></tr></tbody></table>

Nettobetrag 275,00 €

zzgl. Umsatzsteuer 19% 52,25 €

Rechnungsbetrag 327,25 €

Der Gesamtbetrag ist bis zum 25.12.2025 mit dem Verwendungszweck 1 auf unser unten genanntes Konto zu zahlen.

Mit freundlichen Grüßen

Musterfirma GmbH

Die Struktur der Daten geht bei der klassischen Lösung beinahe vollständig verloren. Für einen Menschen mag es noch nachvollziehbar sein, wie die Struktur in der Originaldatei einmal gewesen ist, aber für einen Computer ist die Ausgabe so nur mit erheblichem Programmieraufwand verarbeitbar. Zudem müsste man berücksichtigen,, dass das Layout von Rechnung zu Rechnung häufig variiert. Das Resultat der modernen Pipeline ist für einen Menschen schwerer zu lesen, behält aber die Struktur durch die Verwendung von HTML-Elementen vollständig bei. Damit ist sie im weiteren Verlauf der Pipeline deutlich einfacher zu bearbeiten.

Handschriftliche Notizen

Handschriftliche Notizen eine der größten Herausforderungen für OCR-Systeme.Die Variabilität von Handschriften ist enorm und selbst für Menschen manchmal schwer zu entziffern. Klassische OCR-Engines stoßen hier schnell an ihre Grenzen. Moderne LLM-basierte Systeme hingegen können durch ihr Training auf vielfältigen Datensätzen oft deutlich bessere Ergebnisse erzielen.

Handschriftliches Beispiel – Kreuzprodukt vollständig

Klassische Pipeline (Tesseract)

uw ug Vet vn abe hlAltst N 100.

anne m bannen une 1.0 Sun nina tn Arno act ser um.

} .

an arme

u -————-

I _ = > Re > [a ,b) Fr > as Zu I

Bern

I 7,110 ıN

Moderne Pipeline (dots.ocr)

Definition

Das Vektorjeder oder kveeur produkt

zweier Vektoren a, b ∈ ℝ³ ist

eine Abbildung

$\mathbb{R}^3 \times \mathbb{R}^3 \to (a, b) \mapsto axb,$

die für $a = (\alpha_1, \alpha_2, \alpha_3)^T$ und

$b = (\beta_1, \beta_2, \beta_3)^T$ definiert ist

durch:

$$axb = \begin{pmatrix} \alpha_1 \\ \alpha_2 \\ \alpha_3 \end{pmatrix} \times \begin{pmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \end{pmatrix} := \begin{pmatrix} \alpha_2 \beta_3 & -\alpha_3 \beta_2 \\ \alpha_3 \beta_1 & -\alpha_1 \beta_3 \\ \alpha_1 \beta_2 & -\alpha_2 \beta_1 \end{pmatrix}$$

Wo die klassische OCR schon an der klaren Trennung von Symbolen scheitert und semantische Zeichen wie das Kreuzprodukt nur als einfaches "x" behandelt, rekonstruiert das moderne Modell Struktur und Bedeutung in vielen Fällen. Sollte die Erkennungsgenauigkeit für einen bestimmten Einsatzzweck nicht ausreichend sein, kann bei einem OpenSource Modell natürlich auch noch ein Finetuning auf diesen speziellen Use-Case durchgeführt werden

In diesem Beispiel erkennt die klassische Pipeline die handschriftlichen Teile nicht im Ansatz. Die moderne Pipeline hingegen erkennt nicht nur die handschriftlichen Teile, sondern interpretiert auch die mathematischen Symbole korrekt und gibt eine semantisch sinnvolle Ausgabe zurück.

Technische Daten

Bild generiert von Google Gemini

Eine häufig auftretende Problemstellung ist es, technische Zeichnungen sinnvoll digitalisiert zu archivieren. Hier bietet das Auslesen der Daten auf der Zeichnung enormes Potenzial für Zeitersparnisse sowie nützliche Datenbankstrukturen. Dabei treffen allerdings alle Schwächen von klassischer OCR aufeinander: Text ist in unterschiedlichen Ausrichtungen auf der Zeichnung, Metadaten befinden sich in tabellarischer Form auf dem Dokument und Position spielt eine entscheidende Rolle. Dazu kommen zum Teil ungewöhnliche Schriftbilder und alterndes Papier. Betrachten wir als Beispiel diese Zeichnung eines Wasserrads:

https://berlin.museum-digital.de/singleimage?imagenr=8978

Klassische Pipeline (Tesseract)

1200

Bert)

- 3500

un 2 De

(4 3 - - TI. .

‘ syn << 1 N —_ m

RSS Pa |

Fe > ! N!

& Pa i 1 ı ' L

urn 2% | \

33 g8 BR 1 \

sr“ Pa \ N ,

« N

\ Ri \ \ |ı

- Pa \ \ 5 | N I

Y \ ' \

2] ]

Mech I m. 4100.

mod

yalım Doryaymays ik?

fin Hann Dovkmamn Ihm.

Dorn

E22

22 _

NL,

j j

Moderne Pipeline (dots.ocr)

Wasserdampf System - Empfänger mit Klappenschlüsseln,

für den Markmann / Lüben.

Markmann 1:10 w. 1:100.

Schritt a-b

R 69

99000 X 10 A VI

Wie vorausgesagt, liefert die klassische Pipeline hier kein im Ansatz brauchbares Ergebnis. Die moderne Variante allerdings erkennt, was als Text ausgelesen werden kann und was nicht, und gibt ein brauchbares Ergebnis zurück.

Weiterverarbeitung

Bild generiert von Google Gemini

Noch wichtiger als das bloße Auslesen von Daten ist ihre Verarbeitung. Neben den Vorteilen, die Sprachmodelle bei der OCR bieten, gibt es auch in der weiteren Pipeline noch Möglichkeiten, das Meiste aus den digitalisierten Daten herauszuholen. So können sie nicht nur in ihrer Gesamtheit als Text gespeichert werden, sondern mit wenig Aufwand auf bestimmte Inhalte durchsucht und zur weiteren Verarbeitung in sinnvollen Formaten (z.B. .json) extrahiert werden. Ohne die Verwendung dieser Technologien ist das Arbeiten mit OCR-Ergebnissen meist zeitintensiv und fehleranfällig.

Zusammenfassung

Der Vergleich macht deutlich: Die Integration von LLMs in die OCR-Pipeline ist mehr als nur ein technisches Upgrade – es ist ein Paradigmenwechsel. Durch die multimodale Verarbeitung werden aus bloßen Pixeln direkt strukturierte, verständliche Daten.
Am Ende zählt dabei vor allem die Robustheit: Während klassische Ansätze oft schon bei minimalen Abweichungen wie einem schiefen Scan scheitern, verzeiht die moderne Pipeline Fehler im Ausgangsmaterial und liefert verlässliche Ergebnisse. Damit wandelt sich OCR von einer oft frustrierenden Fehlerquelle zu einer stabilen Basis für jede moderne Softwarearchitektur.

Einen Guide zur Implementierung von LLM-basierter OCR-Pipelines wird in unserem nächsten Artikel verfügbar sein.