OCR-Benchmark 2025: Die besten OpenSource Modelle im Praxistest

Veröffentlicht 09. Februar 2026

OCR-Benchmark 2025: Die besten OpenSource Modelle im Praxistest

Foto von Austris Augusts auf Unsplash

Einleitung

Nachdem wir im ersten Teil unserer Serie beleuchtet haben, wie sich LLM-basierte OCR grundlegend von klassischen Verfahren unterscheidet, und im zweiten Teil die technische Umsetzung beleuchtet haben, widmen wir uns nun der entscheidenden Frage der Modellwahl. Der Markt für Open-Source-Modelle bewegt sich rasant, und die Wahl des richtigen „Motors“ bestimmt maßgeblich über die Qualität und Effizienz der Pipeline.

Für diesen Benchmark haben wir eine Auswahl der aktuell vielversprechendsten Modelle, in unterschiedlichen unten aufgeführten Testcases gegeneinander antreten lassen: PaddleOCR-VLMinerUQwen3-VL-32BDots.OCRDeepSeek OCR und HunyuanOCR.

Methodik und Datensätze

Um die Leistungsfähigkeit diffenrenziert zu betrachten, stützen wir uns auf zwei Säulen:

  1. Qualitative Analyse (Anwendungsfälle): Wir greifen die realitätsnahen Beispiele aus unserem ersten Artikel wieder auf, von historischen Dokumenten bis hin zu komplexen Tabellen. Um die Robustheit der Modelle zu testen, haben wir diese Dokumente teilweise modifiziert (nachgeschärft oder in Graustufen umgewandelt), was in den Ergebnissen als sharp bzw. GS vermerkt ist.
  2. Quantitative Analyse (Kaggle-Datensatz): Zusätzlich haben wir Teile eines etablierten Testdatensatzes von Kaggle herangezogen.

Hierbei ist eine wichtige methodische Einschränkung zu beachten: Die Ground Truth (die korrekt definierte Lösung) dieses Datensatzes liegt als reiner Text vor. Unsere modernen VLM-Ansätze sind jedoch darauf trainiert, auch strukturelle Informationen (wie Markdown oder HTML) zu extrahieren. Ein einfacher Zeichen-für-Zeichen-Vergleich würde daher zu verzerrten Ergebnissen führen, da die Modelle durch die hinzugefügten Struktur-Tags zwangsläufig „längeren“ Text produzieren, als in der Ground Truth vorgesehen.

Auf diese Diskrepanz und unseren Umgang damit gehen wir in der Auswertung detailliert ein.

Technische Indikatoren

Bevor wir in die Ergebnisse eintauchen, werfen wir einen Blick auf die technische Seite der Modelle.

💡Lesehilfe: So interpretiert man die Boxplots

Um nicht nur die reine Leistung, sondern auch die Zuverlässigkeit der Modelle zu zeigen, visualisieren wir die Daten als Boxplots. Das muss man dazu wissen:

  • Die Box (Der Kern): Sie repräsentiert die mittleren 50 % der Ergebnisse. Je schmaler die Box, desto konstanter ist die Leistung des Modells.
  • Der Strich (Median): Der Trennstrich in der Box ist der Median. Er teilt die Ergebnisse exakt in eine bessere und eine schlechtere Hälfte. Er ist aussagekräftiger als der Durchschnitt, da er nicht durch extrem gute oder schlechte Einzelwerte verzerrt wird.
  • Die Antennen (Whiskers): Die nach oben und unten ragenden Linien zeigen die Spanne der „normalen“ Streuung (meist das obere und untere Viertel).
  • Die Punkte (Ausreißer): Einzelne Punkte außerhalb der Antennen sind Dokumente, bei denen das Modell ungewöhnlich schlecht (oder gut) abgeschnitten hat – sogenannte „Halluzinationen“ oder Totalausfälle.

Throughput, Inferenzzeiten & Tokennutzung

Abbildung 1: Throughput der verschiedenen OCR-Modelle.

Der Throughput (Abbildung 1) gibt an, wie viele Tokens pro Sekunde verarbeitet werden können. Ein hoher Wert bedeutet, dass das Modell schneller arbeitet und somit für Anwendungen mit hohem Volumen besser geeignet ist. In dieser Metrik liegt PaddleOCR-VL vorn, gefolgt von MinerU und Dots.OCR. Das Schlusslicht ist Qwen3-VL-32B. Die Ergebnisse korrelieren wie zu erwarten mit der Modellgröße, also der Anzahl an Parametern. Während die auf OCR spezialisierten Modelle zwischen 0,9 Milliarden und 1,7 Millarden Parameter haben und somit wesentlich schneller arbeiten, wurde in dem Vergleich bewusst die 32 Milliarden Parameter Variante von dem allgemeinen Qwen VL-Modell zum Vergleich herangezogen.

Abbildung 2: Tokennutzung der verschiedenen OCR-Modelle.

In unserem Benchmark haben wir die Tokens auf 1024 limitiert. Dies gibt Aufschluss darüber, wie effizient die Modelle mit den bereitgestellten Ressourcen umgehen. Modelle, die weniger Tokens benötigen, sind in der Regel ressourcenschonender und können schneller arbeiten. Hier zeigt sich, dass Dots.OCR und PaddleOCR-VL tendenziell weniger Tokens verwenden, was auf eine effizientere Verarbeitung hinweist.

Abbildung 3: Inferenzzeiten der verschiedenen OCR-Modelle.

Aus den beiden vorherigen Metriken lässt sich die Inferenzzeit (Abbildung 3) ableiten, also die Zeit, die ein Modell benötigt, um eine Eingabe zu verarbeiten. Kürzere Inferenzzeiten sind besonders in Echtzeitanwendungen von Vorteil. Hier zeigt sich, dass PaddleOCR-VL und MinerU die schnellsten Modelle sind, während Qwen3-VL-32B mit Abstand die längsten Verarbeitungszeiten aufweist.

OCR Benchmarks

Textlänge, Zeichengenauigkeit & semantische Genauigkeit

Abbildung 4: Textlänge der verschiedenen OCR-Modelle.

Die Metik der Textlänge (Abbildung 4) gibt Aufschluss darüber, wie viel Text die Modelle im Durchschnitt generieren. Idealerweise sollte die generierte Textlänge der Länge der Ground Truth entsprechen. Wie Eingangs erwähnt geht ein Teil der Testcases nicht davon aus, das die Modelle Strukturinformationen (Markdown/HTML) generieren. Daher ist es erwartbar, dass die Modelle tendenziell längere Texte produzieren. Dennoch lassen sich aus dieser Metrik potentielle Fehlerquellen ableiten. Modelle, die konsistent deutlich längere Texte generieren, könnten dazu neigen, unnötige oder falsche Informationen hinzuzufügen, während Modelle mit deutlich kürzeren Texten möglicherweise wichtige Details übersehen. Auch hier liegen PaddleOCR-VL und Dots.OCR im vorn.

Abbildung 5: Zeichengenauigkeit der verschiedenen OCR-Modelle.

Die Zeichengenauigkeit (Abbildung 5) misst, wie exakt die generierten Texte mit der Ground Truth übereinstimmen. Auch hier muss wieder berücksichtigt werden, dass die Ground Truth keine Strukturinformationen enthält, was zu niedrigeren Übereinstimmungswerten führen kann. Dennoch bietet diese Metrik wertvolle Einblicke in die Präzision der Modelle. Klarer Sieger in dieser Disziplin ist Dots.OCR, gefolgt von PaddleOCR-VL,MinerU und HunyuanOCR, die alle ähnlich abschneiden. DeepSeek OCR belegt den fünften Platz, während Qwen3-VL-32B erneut deutlich am unteren Ende der Skala liegt.

Abbildung 6: Semantische Genauigkeit der verschiedenen OCR-Modelle.

Die semantische Genauigkeit (Abbildung 6) bewertet, wie gut die Modelle den Inhalt der Texte verstanden und wiedergegeben haben, unabhängig von der genauen Zeichenfolge. Diese Metrik ist besonders wichtig, da sie die Fähigkeit der Modelle widerspiegelt, den Sinn und Kontext der Informationen zu erfassen.Hier führen wieder Dots.OCR und PaddleOCR-VL die Rangliste an, dicht gefolgt von Qwen3-VL-32B. Die gute Leistung von Qwen3-VL-32B in dieser Disziplin deutet darauf hin, dass das Modell den Inhalt der Dokumente gut erfasst, auch wenn es bei der genauen Zeichengenauigkeit Schwächen aufweist, da es sich bei Qwen3-VL-32B nicht um ein spezialisiertes OCR-Modell handelt, sondern um ein allgemeines multimodales Modell, entspricht dies unseren Erwartungen.

Modell-zu-Modell Vergleiche

💡Lesehilfe: Modell-zu-Modell Vergleich

Diese Grafik zeigt nicht, wie gut ein Modell gegen die Musterlösung (Ground Truth) abschneidet, sondern wie einig sich die Modelle untereinander sind.

  • Oben (Zeichen-Übereinstimmung): Hier prüfen wir auf das exakte Zeichen. Niedrige Werte (hellgelb) sind hier erwartet und kein schlechtes Zeichen: Da LLMs Strukturformate (Markdown, HTML, JSON) selbst generieren, unterscheiden sie sich in der Syntax oft stark, auch wenn der Inhalt gleich ist.
  • Unten (Semantische Übereinstimmung): Hier vergleichen wir die Bedeutung des Textes (Embeddings). Hohe Werte zeigen: Die Modelle haben den Inhalt identisch verstanden, auch wenn sie ihn oben unterschiedlich formatiert haben.

Abbildung 7: Semantische Genauigkeit der verschiedenen OCR-Modelle.

Als konsistentes Test vergleichen wir hier alle Modelle miteinander. Auffällig ist, dass Dots.OCR und PaddleOCR-VL die höchste Übereinstimmung aufweisen (sowohl auf Zeichen- als auch auf Semantik-Ebene) und in den vorherigen Metriken auch am besten abgeschnitten haben. Dies deutet darauf hin, dass diese beiden Modelle nicht nur individuell stark sind, sondern auch ähnliche Ergebnisse liefern, was auf eine robuste und zuverlässige Leistung hinweist.

💡Lesehilfe: Realität vs. Erwartung (Ground Truth)

Hier vergleichen wir die Modellausgaben gegen die korrekte Lösung ("Ground Truth"). Man sollte dabei den entscheidenden Unterschied zwischen den beiden Metriken beachten.

  • Oben (Zeichen-Ebene): Zeigt, ob die Zeichen exakt übereinstimmen.
    Auffällig: Bei den Formularen (funsd_...) sehen wir viel Gelb (niedrige Werte). Das ist erwartbar, da die Modelle Struktur (Markdown/HTML) hinzufügen, die in der reinen Text-Lösung fehlt.
  • Unten (Semantik-Ebene): Zeigt, ob der Inhalt korrekt verstanden wurde.
    Hier dominieren die dunklen Blautöne. Das beweist: Auch wenn die Zeichen oben abweichen (aufgrund der Formatierung), haben die Modelle den Inhalt der Formulare meist korrekt erfasst.

Abbildung 8: Semantische Genauigkeit der verschiedenen OCR-Modelle.

In diesem Vergleich gegen die Ground Truth wird deutlich, wie sehr die Modelle von der Art der Testfälle beeinflusst werden. Besonders bei den Formularen (funsd_...) zeigen sich erhebliche Abweichungen auf Zeichen-Ebene (oben), was auf die zuvor erwähnte Problematik mit den Strukturinformationen zurückzuführen ist. Auf semantischer Ebene (unten) hingegen schneiden die Modelle deutlich besser ab, was darauf hinweist, dass sie den Inhalt der Dokumente trotz der Formatierungsunterschiede gut erfassen können. Dies unterstreicht die Bedeutung, bei der Bewertung von OCR-Modellen nicht nur auf die exakte Zeichenübereinstimmung zu achten, sondern auch den inhaltlichen Kontext zu berücksichtigen.

Fazit und Ausblick

Abbildung 9: Ranking der Modelle nach Test.

Unser Benchmark zeigt klar, dass spezialisierte OCR-Modelle wie Dots.OCR und PaddleOCR-VL derzeit die besten Leistungen erbringen, sowohl in technischer Hinsicht als auch bei der tatsächlichen Texterkennung. Diese Modelle überzeugen durch ihre Geschwindigkeit, Effizienz und Genauigkeit, was sie zu hervorragenden Kandidaten für den Einsatz in produktiven OCR-Pipelines macht. Gleichzeitig verdeutlicht der Vergleich mit der Ground Truth die Herausforderungen, die sich aus der Diskrepanz zwischen reiner Textlösung und den von den Modellen generierten strukturierten Formaten ergeben. Für zukünftige Benchmarks wäre es daher sinnvoll, Datensätze zu verwenden, die sowohl den Text als auch die Strukturinformationen berücksichtigen, um ein noch umfassenderes Bild der Modellleistung zu erhalten. Insgesamt bieten die Ergebnisse wertvolle Einblicke für Entwickler und Unternehmen, die auf der Suche nach leistungsfähigen OCR-Lösungen sind.

Gern beraten wir Sie tiefergreifend bei der Auswahl eines OCR Modells für ihre spezielle Anwendung oder bauen vollständige Pipelines für Sie auf, wenden Sie sich bei Fragen einfach and uns.

Bereit für die Zukunft?

Kontakt