Embedding
Numerische Darstellung von Text als Vektor, der semantische Ähnlichkeiten abbildet. Grundlage für KI-Suche, RAG-Systeme und Empfehlungen.
Auch bekannt als: Vektorrepräsentation, Text-Embedding, Semantischer Vektor
Was ist ein Embedding?
Ein Embedding ist die Umwandlung von Text (oder anderen Inhalten) in einen numerischen Vektor — eine Liste von Zahlen, die die semantische Bedeutung des Textes kodiert. Texte mit ähnlicher Bedeutung erhalten ähnliche Vektoren; inhaltlich verschiedene Texte liegen im Vektorraum weiter auseinander.
Beispiel: “Kann ich das Abonnement kündigen?” und “Wie beende ich meinen Vertrag?” liegen als Embeddings sehr nah beieinander — obwohl sie kein einziges gemeinsames Wort haben.
Wozu Embeddings verwendet werden
Semantische Suche — Statt nach exakten Schlagwörtern zu suchen, findet das System inhaltlich ähnliche Texte. Relevant für Wissensdatenbanken, Dokumentensuche, FAQ-Systeme.
[[RAG]] (Retrieval-Augmented Generation) — Das Herzstück von RAG-Systemen: Dokumente werden als Embeddings gespeichert. Wenn eine Frage gestellt wird, sucht das System die semantisch ähnlichsten Textstellen heraus und gibt sie als Kontext an das LLM.
Klassifikation — Texte werden automatisch kategorisiert, basierend auf ihrer semantischen Nähe zu definierten Klassen.
Duplikaterkennung — Ähnliche oder gleiche Inhalte werden erkannt, auch wenn die Formulierung variiert.
Embedding-Modelle
Embeddings werden von speziellen Modellen erzeugt — nicht von denselben Modellen, die Text generieren. Bekannte Embedding-Modelle: text-embedding-ada-002 (OpenAI), all-MiniLM-L6-v2 (lokal, kompakt), multilingual-e5 (mehrsprachig, gut für Deutsch).
Für DSGVO-konforme, lokale Setups gibt es Open-Source-Modelle, die vollständig auf eigener Hardware betrieben werden können.
Alle Begriffe im Überblick