Vom Stapel auf dem Schreibtisch zur Datenbank: Wie KI Medienbrüche löst

Gescannte Rechnungen, Formulare, PDF-Protokolle — in den meisten KMU steckt wertvolle Information in nicht-maschinenlesbarer Form. Wie KI das ändert.

Sikko Hühsam 22. April 2026

Drei Stunden. So lange dauert in vielen kleinen Ingenieurbüros die Auswertung eines Begehungsprotokolls — Seite für Seite durcharbeiten, Mängel identifizieren, priorisieren, in das System übertragen.

Das Protokoll liegt als PDF vor. Manchmal sogar digital erstellt. Aber die Information darin ist für das System nicht greifbar.

Das ist ein Medienbruch.

Was ein Medienbruch ist — und warum er so teuer ist

Ein Medienbruch entsteht, wenn Information von einem Medium in ein anderes übertragen werden muss — und diese Übertragung manuell erfolgt.

Der Klassiker: Eine Rechnung kommt als PDF-Anhang. Jemand öffnet sie, liest Betrag, Rechnungsnummer und Datum ab und tippt sie ins Buchhaltungssystem. Die Information war schon digital — aber sie konnte nicht automatisch weiterverarbeitet werden.

Das Volumen macht das Problem teuer. Nicht der einzelne Vorgang — sondern hunderte davon, täglich, über Jahre. Fehler entstehen. Durchlaufzeiten wachsen. Wertvolle Arbeitszeit wird für mechanische Übertragung aufgewendet.

Schritt 1: OCR — Text aus Bildern machen

Der erste technische Schritt ist [[OCR]] (Optical Character Recognition): Die Technologie erkennt Text in Bilddaten — ob das ein gescanntes Dokument, ein Foto eines Formulars oder ein PDF mit gerenderten Bildern ist.

Das Ergebnis ist Rohtext. Keine Struktur, keine Kategorisierung — aber maschinenlesbarer Text, mit dem weitergearbeitet werden kann.

Moderne OCR-Systeme sind überraschend robust: Sie verarbeiten schlechte Scan-Qualität, verschiedene Schriftarten, mehrspaltige Layouts. Sie laufen lokal, ohne Datenaustausch mit Cloud-Diensten — relevant für alles, was unter Datenschutz fällt.

Schritt 2: LLM — Bedeutung aus Text extrahieren

OCR liefert Text. Ein [[LLM|Sprachmodell]] versteht ihn.

Der nächste Schritt: Das LLM liest den Rohtext und extrahiert die relevante Information in strukturierter Form. Welche Firma hat die Rechnung ausgestellt? Was kostet was? Auf welches Projekt bezieht sich das Protokoll?

Das LLM muss dafür nicht auf das spezifische Dokument trainiert worden sein. Es versteht Sprache — und kann aus beliebig strukturierten Texten die gewünschten Felder herauslesen, auch wenn jedes Dokument etwas anders formatiert ist.

Genau das ist der Unterschied zu regelbasierten Ansätzen: Regelbasierte Systeme brauchen feste Templates. Ein LLM kommt mit Variation klar.

Schritt 3: Validierung — der Mensch bleibt im Loop

Vollständige Automation klingt verlockend. Aber bei sensiblen Dokumenten — Rechnungen, Verträge, Protokolle mit rechtlicher Relevanz — ist ein [[Human-in-the-Loop|menschlicher Prüfschritt]] sinnvoll.

Nicht für jeden Vorgang. Aber für alles, was außerhalb definierter Konfidenzgrenzen liegt: wenn das Modell unsicher ist, wenn wichtige Felder fehlen, wenn das Dokument ungewöhnlich aufgebaut ist.

Das Ergebnis: Die KI bearbeitet den Standard. Der Mensch prüft die Ausnahmen — mit allen Informationen bereits aufbereitet, statt von vorne anzufangen.

Schritt 4: Integration — Daten, wo sie gebraucht werden

Extrahierte Information nutzt erst dann ihren vollen Wert, wenn sie im richtigen System landet. CRM, ERP, Projektmanagementsoftware, Buchhaltung — die Zielsysteme sind je nach Branche verschieden.

[[Systemintegration|Systemintegrationen]] über [[API|APIs]] oder Middleware-Tools verbinden den Dokumentenverarbeitungs-Workflow mit dem Zielsystem. Der Weg: Dokument eingehend → OCR → LLM-Extraktion → Validierung → automatische Übergabe an das System.

Was das in der Praxis bedeutet

Zurück zum Ingenieurbüro: Drei Stunden für ein Begehungsprotokoll werden zu fünfzehn Minuten. Die KI liest das Protokoll, identifiziert Mängel, weist Prioritäten zu und übergibt alles strukturiert an das Projektmanagementsystem. Der Ingenieur prüft, bestätigt und ergänzt — anstatt von Null anzufangen.

Die Zeitersparnis ist messbar. Die Fehlerquote sinkt. Und die Kapazität, die frei wird, kann für die Arbeit genutzt werden, für die tatsächlich Expertise nötig ist.

Wo der Aufwand wirklich liegt

Dokumentenverarbeitung mit KI funktioniert. Der eigentliche Aufwand liegt nicht in der Technologie — er liegt in der Vorbereitung:

Welche Dokumente sollen verarbeitet werden?
Welche Felder müssen extrahiert werden?
Welche Ausnahmen gibt es — und wie werden sie behandelt?
Wo landen die Daten, und in welchem Format werden sie erwartet?

Diese Fragen zu beantworten braucht Zeit. Die Technologie setzt danach um, was klar definiert ist. Das gilt für Dokumentenverarbeitung — und für jede andere Automatisierung auch.

Häufige Fragen

Antworten auf Ihre Fragen

Was ist ein Medienbruch?

Ein Medienbruch entsteht, wenn Information von einem Medium in ein anderes übertragen werden muss — und diese Übertragung manuell erfolgt. Beispiel: Ein PDF-Angebot wird empfangen und die Daten werden manuell in das CRM eingetippt. Die Information ist digital, aber nicht automatisch verarbeitbar.

Welche Dokumente kann KI automatisch verarbeiten?

Moderne KI-Systeme können Rechnungen, Lieferscheine, Verträge, Begehungsprotokolle, E-Mails, Formulare und ähnliche Dokumente verarbeiten — auch wenn sie eingescannt, handschriftlich oder in wechselnden Formaten vorliegen. Die Erkennungsgenauigkeit hängt von der Dokumentenqualität und der Konfiguration des Systems ab.

Ist KI-Dokumentenverarbeitung DSGVO-konform?

Das hängt vom Aufbau des Systems ab. Wer KI-Modelle lokal betreibt (On-Premise), überträgt keine Daten an externe Anbieter — das ist der sicherste Weg für sensible Dokumente. Cloud-basierte Lösungen erfordern einen Auftragsverarbeitungsvertrag mit dem Anbieter und eine DSGVO-konforme Konfiguration.