Künstliche Intelligenz

Embedding

Numerische Darstellung von Text als Vektor, der semantische Ähnlichkeiten abbildet. Grundlage für KI-Suche, RAG-Systeme und Empfehlungen.

Auch bekannt als:  Vektorrepräsentation, Text-Embedding, Semantischer Vektor

Was ist ein Embedding?

Ein Embedding ist die Umwandlung von Text (oder anderen Inhalten) in einen numerischen Vektor — eine Liste von Zahlen, die die semantische Bedeutung des Textes kodiert. Texte mit ähnlicher Bedeutung erhalten ähnliche Vektoren; inhaltlich verschiedene Texte liegen im Vektorraum weiter auseinander.

Beispiel: “Kann ich das Abonnement kündigen?” und “Wie beende ich meinen Vertrag?” liegen als Embeddings sehr nah beieinander — obwohl sie kein einziges gemeinsames Wort haben.

Wozu Embeddings verwendet werden

Semantische Suche — Statt nach exakten Schlagwörtern zu suchen, findet das System inhaltlich ähnliche Texte. Relevant für Wissensdatenbanken, Dokumentensuche, FAQ-Systeme.

[[RAG]] (Retrieval-Augmented Generation) — Das Herzstück von RAG-Systemen: Dokumente werden als Embeddings gespeichert. Wenn eine Frage gestellt wird, sucht das System die semantisch ähnlichsten Textstellen heraus und gibt sie als Kontext an das LLM.

Klassifikation — Texte werden automatisch kategorisiert, basierend auf ihrer semantischen Nähe zu definierten Klassen.

Duplikaterkennung — Ähnliche oder gleiche Inhalte werden erkannt, auch wenn die Formulierung variiert.

Embedding-Modelle

Embeddings werden von speziellen Modellen erzeugt — nicht von denselben Modellen, die Text generieren. Bekannte Embedding-Modelle: text-embedding-ada-002 (OpenAI), all-MiniLM-L6-v2 (lokal, kompakt), multilingual-e5 (mehrsprachig, gut für Deutsch).

Für DSGVO-konforme, lokale Setups gibt es Open-Source-Modelle, die vollständig auf eigener Hardware betrieben werden können.