OCR

Optical Character Recognition — automatische Texterkennung aus Scans, Fotos und PDFs. Wandelt Bilddaten in maschinenlesbaren Text um.

Auch bekannt als: Optical Character Recognition, Texterkennung, Zeichenerkennung

Was ist OCR?

OCR (Optical Character Recognition) ist eine Technologie, die Text in Bildern erkennt und in maschinenlesbaren Text umwandelt. Das können eingescannte Dokumente sein, Fotos von Formularen, PDF-Dateien mit gerenderten Bildern oder handschriftliche Notizen.

Das Ergebnis: Ein Bild, das Text enthält, wird zu echtem Text — der weiterverarbeitet, durchsucht, in Datenbanken geschrieben oder an KI-Systeme übergeben werden kann.

Warum OCR eine Schlüsseltechnologie für Automatisierung ist

In Unternehmen existiert ein erheblicher Teil wichtiger Information in nicht-maschinenlesbarer Form: gescannte Verträge, eingescannte Lieferscheine, Fotos von Whiteboards, gedruckte Formulare. Diese Dokumente sind digital gespeichert — aber nicht digital verarbeitbar.

OCR ist der erste Schritt, um diese Informationen in automatisierbare Daten zu verwandeln. Ohne OCR bleibt jede Verarbeitung manuell.

Moderne OCR: weit mehr als Schrifterkennung

Klassisches OCR erkannte Buchstaben. Moderne OCR-Systeme:

Erkennen Dokumentstruktur (Tabellen, Formulare, Unterschriften)
Verarbeiten schlechte Scan-Qualität und verschiedene Schriftarten
Unterstützen Handschrifterkennung
Laufen lokal (datenschutzkonform) oder in der Cloud

OCR + LLM: die Kombination für intelligente Dokumentenverarbeitung

OCR allein extrahiert Text. Was in diesem Text steht — welche Informationen relevant sind, welche Felder befüllt werden sollen — erkennt ein nachgelagertes [[LLM]]. Die Kombination aus OCR und LLM ermöglicht vollständig automatische Dokumentenverarbeitung: vom Scan zur strukturierten Datenbank, ohne menschliches Eingreifen für Standardfälle.

Verwandte Begriffe

LLM

Large Language Model: KI-Sprachmodell, das auf riesigen Textmengen trainiert wurde und natürliche Sprache versteht, generiert und verarbeitet.

RAG

KI schlägt vor der Antwort in einer Wissensdatenbank nach — für aktuelle, quellenbasierte Ergebnisse ohne Finetuning.

Workflow-Automatisierung

Automatische Ausführung wiederkehrender Arbeitsabläufe durch Software — ohne manuellen Eingriff bei jedem Schritt.

Systemintegration

Die Verbindung verschiedener Software-Systeme, damit Daten und Prozesse automatisch zwischen ihnen fließen können — ohne manuelle Übertragung.

Artikel zu diesem Thema

Vom Stapel auf dem Schreibtisch zur Datenbank: Wie KI Medienbrüche löst

22. April 2026

Alle Begriffe im Überblick

Zum Glossar Erstgespräch