Datenqualität vor Automatisierung: Warum schlechte Daten jeden Workflow zerstören

Garbage in, garbage out — nur schneller. Wer Automationen ohne Datenqualitätsstrategie startet, skaliert Fehler statt Effizienz.

Sikko Hühsam 29. April 2026

Ein Unternehmen automatisiert seinen Rechnungsversand. Vorher: Mitarbeiterin erstellt Rechnung, adressiert sie manuell, schickt sie ab. Nachher: Das System erstellt die Rechnung automatisch und sendet sie.

Drei Wochen nach dem Launch: Rechnungen gehen an veraltete E-Mail-Adressen. An Kontakte, die längst nicht mehr zuständig sind. An Kunden, deren Adresse sich geändert hat — aber im CRM nicht aktualisiert wurde.

Die Automation funktioniert. Die Daten nicht.

Das Grundproblem: Automatisierung skaliert, was vorhanden ist

Der Satz “garbage in, garbage out” ist alt. Er ist trotzdem präzise.

Eine Automation macht genau das, wofür sie gebaut wurde — schnell und ohne zu zögern. Wenn die Eingangsdaten fehlerhaft, veraltet oder inkonsistent sind, sind es die Ausgaben auch. Nur jetzt schneller und in größerem Maßstab.

Manuell aufgewendete Zeit hat einen stillen Qualitätssicherungseffekt: Die Mitarbeiterin, die eine Rechnung manuell erstellt, bemerkt, dass die Adresse offensichtlich falsch ist, und korrigiert sie. Die Automation bemerkt das nicht. Sie sendet.

Was Datenqualität bedeutet

Datenqualität ist kein einziges Merkmal — es ist ein Bündel von Eigenschaften, die zusammen bestimmen, ob Daten für einen bestimmten Zweck tauglich sind:

Vollständigkeit — Sind alle notwendigen Felder befüllt? Fehlen wichtige Informationen, die der Prozess braucht?

Korrektheit — Sind die Daten aktuell und faktisch richtig? Alte E-Mail-Adressen, falsche Telefonnummern, nicht mehr zutreffende Firmennamen.

Konsistenz — Werden gleiche Informationen überall gleich dargestellt? Eine Telefonnummer in fünf verschiedenen Formaten, drei verschiedene Schreibweisen desselben Stadtnamens — das klingt marginal, bis eine Automation damit arbeiten muss.

Eindeutigkeit — Gibt es Duplikate? Dieselbe Firma dreimal im System, weil sie bei drei verschiedenen Gelegenheiten angelegt wurde.

Definitionsklarheit — Was bedeuten die Felder? “Aktiver Kunde” — was ist die Definition? Ab wann ist ein Kontakt inaktiv? Wenn darüber keine Einigkeit besteht, sind die Daten darin inkonsistent — auch wenn sie korrekt befüllt sind.

Wo Datenqualitätsprobleme entstehen

In den seltensten Fällen durch Absicht. Die typischen Quellen:

Manuelle Eingabe — Menschen machen Fehler, entwickeln Abkürzungen, setzen Felder als “optional” ein, die eigentlich wichtig wären.

Gewachsene Systemlandschaften — Daten wurden über Jahre aus verschiedenen Quellen importiert, mit verschiedenen Datenmodellen und ohne einheitliche Standards.

Fehlende Pflege — Daten, die bei der Anlage korrekt waren, stimmen sechs Monate später nicht mehr: Mitarbeiter wechseln, Unternehmen ändern ihre Adresse, E-Mail-Adressen werden deaktiviert.

Keine Verantwortlichkeit — Wenn niemand explizit für die Datenqualität eines Feldes zuständig ist, kümmert sich niemand darum.

Die Datenqualitätsprüfung vor dem Projekt

Bevor ein Automatisierungsprojekt beginnt, lohnt sich eine kurze Prüfung der beteiligten Datenquellen. Keine vollständige [[Data Governance|Datenstrategie]] — aber eine ehrliche Einschätzung der aktuellen Qualität.

Vier Fragen:

Vollständigkeit — Wie hoch ist der Anteil vollständig ausgefüllter Datensätze? Ein einfacher Export und eine Auswertung leerer Pflichtfelder reicht.
Aktualität — Wie alt sind die Daten? Gibt es Datensätze, die seit mehr als einem Jahr nicht angefasst wurden und deshalb wahrscheinlich veraltet sind?
Duplikate — Wie viele Duplikate gibt es? Die meisten CRM- und ERP-Systeme haben eingebaute Duplikat-Erkennungsfunktionen.
Definitionen — Gibt es für die wichtigsten Felder eine klare, geteilte Definition? Wenn zwei Personen auf die Frage “Was ist ein aktiver Kunde?” unterschiedlich antworten, ist das ein Datenproblem.

Bereinigung: pragmatisch priorisieren

Eine vollständige Datenbereinigung vor jedem Automatisierungsprojekt ist unrealistisch. Die pragmatische Alternative: nur die Daten bereinigen, die der geplante Prozess tatsächlich berührt.

Wenn die Automation Rechnungen versendet, sind die kritischen Felder: E-Mail-Adresse, Firma, Kontaktperson, Rechnungsadresse. Diese Felder werden geprüft und bereinigt — nicht der gesamte Datensatz.

Priorisierte Bereinigung spart Zeit und liefert trotzdem das Ergebnis, das für das Projekt gebraucht wird.

Was danach kommt: Qualität erhalten

Einmalige Bereinigung hilft nicht, wenn die Qualität danach wieder erodiert. Nachhaltige Datenqualität braucht:

Validierungsregeln bei der Eingabe — Pflichtfelder, die wirklich Pflicht sind. Formate, die geprüft werden. E-Mail-Adressen, die auf Syntaxfehler getestet werden.

Regelmäßige Qualitätschecks — Kein aufwändiges Audit — ein monatlicher Export mit drei Kennzahlen (Vollständigkeit, Duplikate, Aktualität) reicht als Frühwarnsystem.

Klare Verantwortlichkeit — Wer ist für welche Daten zuständig? Wenn das klar ist, gibt es einen Ansprechpartner — und die Wahrscheinlichkeit steigt, dass sich jemand kümmert.

Die Investition in Datenqualität vor einem Automatisierungsprojekt ist klein im Vergleich zu dem, was schlechte Daten im laufenden Betrieb kosten. Weniger Fehler, weniger Nacharbeit, mehr Vertrauen in die Automation.

Das ist der Return on Investment, der im Projektplan selten steht — und der trotzdem einer der größten ist.

Häufige Fragen

Antworten auf Ihre Fragen

Was sind typische Datenqualitätsprobleme in KMU?

Die häufigsten: Duplikate (dieselbe Person oder Firma mehrfach im System), fehlende Pflichtfelder (weil sie optional gesetzt waren), inkonsistente Formate (Telefonnummern in fünf verschiedenen Formaten), veraltete Daten (Kunden, die längst inaktiv sind, aber noch als aktiv geführt werden) und fehlende Definitionen (was ist ein 'aktiver Kunde'?).

Wie aufwändig ist eine Datenqualitätsprüfung vor einem Automatisierungsprojekt?

Das hängt vom Datenzustand ab. Eine erste Einschätzung — wie viele Duplikate gibt es, wie vollständig sind Pflichtfelder, wie konsistent sind Formate — lässt sich oft in einem halben Tag durch einfache Exports und Auswertungen gewinnen. Die vollständige Bereinigung kann länger dauern, aber die Prüfung geht schnell.

Soll ich die Daten zuerst bereinigen oder die Automation zuerst bauen?

Datenbereinigung vor der Automation. Die Automation auf schlechten Daten aufzusetzen bedeutet: Fehler werden automatisiert und skaliert. Die Bereinigung hinterher ist meist aufwändiger als vorher — weil das System dann Entscheidungen getroffen hat, die auf schlechten Daten basieren und rückgängig gemacht werden müssen.