Vom Stapel auf dem Schreibtisch zur Datenbank: Wie KI Medienbrüche löst
Gescannte Rechnungen, Formulare, PDF-Protokolle — in den meisten KMU steckt wertvolle Information in nicht-maschinenlesbarer Form. Wie KI das ändert.
Drei Stunden. So lange dauert in vielen kleinen Ingenieurbüros die Auswertung eines Begehungsprotokolls — Seite für Seite durcharbeiten, Mängel identifizieren, priorisieren, in das System übertragen.
Das Protokoll liegt als PDF vor. Manchmal sogar digital erstellt. Aber die Information darin ist für das System nicht greifbar.
Das ist ein Medienbruch.
Was ein Medienbruch ist — und warum er so teuer ist
Ein Medienbruch entsteht, wenn Information von einem Medium in ein anderes übertragen werden muss — und diese Übertragung manuell erfolgt.
Der Klassiker: Eine Rechnung kommt als PDF-Anhang. Jemand öffnet sie, liest Betrag, Rechnungsnummer und Datum ab und tippt sie ins Buchhaltungssystem. Die Information war schon digital — aber sie konnte nicht automatisch weiterverarbeitet werden.
Das Volumen macht das Problem teuer. Nicht der einzelne Vorgang — sondern hunderte davon, täglich, über Jahre. Fehler entstehen. Durchlaufzeiten wachsen. Wertvolle Arbeitszeit wird für mechanische Übertragung aufgewendet.
Schritt 1: OCR — Text aus Bildern machen
Der erste technische Schritt ist [[OCR]] (Optical Character Recognition): Die Technologie erkennt Text in Bilddaten — ob das ein gescanntes Dokument, ein Foto eines Formulars oder ein PDF mit gerenderten Bildern ist.
Das Ergebnis ist Rohtext. Keine Struktur, keine Kategorisierung — aber maschinenlesbarer Text, mit dem weitergearbeitet werden kann.
Moderne OCR-Systeme sind überraschend robust: Sie verarbeiten schlechte Scan-Qualität, verschiedene Schriftarten, mehrspaltige Layouts. Sie laufen lokal, ohne Datenaustausch mit Cloud-Diensten — relevant für alles, was unter Datenschutz fällt.
Schritt 2: LLM — Bedeutung aus Text extrahieren
OCR liefert Text. Ein [[LLM|Sprachmodell]] versteht ihn.
Der nächste Schritt: Das LLM liest den Rohtext und extrahiert die relevante Information in strukturierter Form. Welche Firma hat die Rechnung ausgestellt? Was kostet was? Auf welches Projekt bezieht sich das Protokoll?
Das LLM muss dafür nicht auf das spezifische Dokument trainiert worden sein. Es versteht Sprache — und kann aus beliebig strukturierten Texten die gewünschten Felder herauslesen, auch wenn jedes Dokument etwas anders formatiert ist.
Genau das ist der Unterschied zu regelbasierten Ansätzen: Regelbasierte Systeme brauchen feste Templates. Ein LLM kommt mit Variation klar.
Schritt 3: Validierung — der Mensch bleibt im Loop
Vollständige Automation klingt verlockend. Aber bei sensiblen Dokumenten — Rechnungen, Verträge, Protokolle mit rechtlicher Relevanz — ist ein [[Human-in-the-Loop|menschlicher Prüfschritt]] sinnvoll.
Nicht für jeden Vorgang. Aber für alles, was außerhalb definierter Konfidenzgrenzen liegt: wenn das Modell unsicher ist, wenn wichtige Felder fehlen, wenn das Dokument ungewöhnlich aufgebaut ist.
Das Ergebnis: Die KI bearbeitet den Standard. Der Mensch prüft die Ausnahmen — mit allen Informationen bereits aufbereitet, statt von vorne anzufangen.
Schritt 4: Integration — Daten, wo sie gebraucht werden
Extrahierte Information nutzt erst dann ihren vollen Wert, wenn sie im richtigen System landet. CRM, ERP, Projektmanagementsoftware, Buchhaltung — die Zielsysteme sind je nach Branche verschieden.
[[Systemintegration|Systemintegrationen]] über [[API|APIs]] oder Middleware-Tools verbinden den Dokumentenverarbeitungs-Workflow mit dem Zielsystem. Der Weg: Dokument eingehend → OCR → LLM-Extraktion → Validierung → automatische Übergabe an das System.
Was das in der Praxis bedeutet
Zurück zum Ingenieurbüro: Drei Stunden für ein Begehungsprotokoll werden zu fünfzehn Minuten. Die KI liest das Protokoll, identifiziert Mängel, weist Prioritäten zu und übergibt alles strukturiert an das Projektmanagementsystem. Der Ingenieur prüft, bestätigt und ergänzt — anstatt von Null anzufangen.
Die Zeitersparnis ist messbar. Die Fehlerquote sinkt. Und die Kapazität, die frei wird, kann für die Arbeit genutzt werden, für die tatsächlich Expertise nötig ist.
Wo der Aufwand wirklich liegt
Dokumentenverarbeitung mit KI funktioniert. Der eigentliche Aufwand liegt nicht in der Technologie — er liegt in der Vorbereitung:
- Welche Dokumente sollen verarbeitet werden?
- Welche Felder müssen extrahiert werden?
- Welche Ausnahmen gibt es — und wie werden sie behandelt?
- Wo landen die Daten, und in welchem Format werden sie erwartet?
Diese Fragen zu beantworten braucht Zeit. Die Technologie setzt danach um, was klar definiert ist. Das gilt für Dokumentenverarbeitung — und für jede andere Automatisierung auch.