Künstliche Intelligenz

OCR

Optical Character Recognition — automatische Texterkennung aus Scans, Fotos und PDFs. Wandelt Bilddaten in maschinenlesbaren Text um.

Auch bekannt als:  Optical Character Recognition, Texterkennung, Zeichenerkennung

Was ist OCR?

OCR (Optical Character Recognition) ist eine Technologie, die Text in Bildern erkennt und in maschinenlesbaren Text umwandelt. Das können eingescannte Dokumente sein, Fotos von Formularen, PDF-Dateien mit gerenderten Bildern oder handschriftliche Notizen.

Das Ergebnis: Ein Bild, das Text enthält, wird zu echtem Text — der weiterverarbeitet, durchsucht, in Datenbanken geschrieben oder an KI-Systeme übergeben werden kann.

Warum OCR eine Schlüsseltechnologie für Automatisierung ist

In Unternehmen existiert ein erheblicher Teil wichtiger Information in nicht-maschinenlesbarer Form: gescannte Verträge, eingescannte Lieferscheine, Fotos von Whiteboards, gedruckte Formulare. Diese Dokumente sind digital gespeichert — aber nicht digital verarbeitbar.

OCR ist der erste Schritt, um diese Informationen in automatisierbare Daten zu verwandeln. Ohne OCR bleibt jede Verarbeitung manuell.

Moderne OCR: weit mehr als Schrifterkennung

Klassisches OCR erkannte Buchstaben. Moderne OCR-Systeme:

  • Erkennen Dokumentstruktur (Tabellen, Formulare, Unterschriften)
  • Verarbeiten schlechte Scan-Qualität und verschiedene Schriftarten
  • Unterstützen Handschrifterkennung
  • Laufen lokal (datenschutzkonform) oder in der Cloud

OCR + LLM: die Kombination für intelligente Dokumentenverarbeitung

OCR allein extrahiert Text. Was in diesem Text steht — welche Informationen relevant sind, welche Felder befüllt werden sollen — erkennt ein nachgelagertes [[LLM]]. Die Kombination aus OCR und LLM ermöglicht vollständig automatische Dokumentenverarbeitung: vom Scan zur strukturierten Datenbank, ohne menschliches Eingreifen für Standardfälle.