KI Neuigkeiten
28 Jan. 2026
Read 14 min
LLM Qualitätssicherung mit DeepEval: Wie man RAG prüft
LLM Qualitätssicherung mit DeepEval macht RAG messbar und reproduzierbar und findet Halluzinationen.
Warum LLM Qualitätssicherung mit DeepEval jetzt nötig ist
Von Bauchgefühl zu Messwerten
Viele Teams prüfen LLM-Antworten mit Stichproben. Das reicht nicht. DeepEval bringt Unit-Testing-Denken in LLM-Workflows: Jede Ausgabe wird wie ein Testfall behandelt, jede Annahme wird mit Daten belegt. So lassen sich Fehlerbilder stabil nachweisen, rückverfolgen und beheben.LLM-as-a-judge verständlich
Mit LLM-as-a-judge bewertet ein Modell die Qualität anderer Modellantworten nach vorgegebenen Rubriken. Das ermöglicht:- feinkörnige Bewertungen, wenn klassische Metriken (z. B. Rouge) nicht passen,
- Skalierung über viele Testfälle,
- einheitliche Maßstäbe für verschiedene Prompts und Modelle.
Die Evaluations-Umgebung aufsetzen
Robustes Setup
Die Pipeline stabilisiert zuerst zentrale Abhängigkeiten und installiert benötigte Pakete. Ein gezieltes Neuinstallieren von numpy (Version 1.26.4) verhindert bekannte Inkompatibilitäten. Anschließend werden deepeval, openai, scikit-learn, pandas und tqdm geladen. So startet die Umgebung verlässlich, auch in Notebook-Umfeldern.API-Schlüssel optional
Ein OpenAI-API-Key kann gesetzt werden. Ist er vorhanden, werden Antworten per LLM erzeugt. Fehlt er, gibt es eine robuste Offline-Alternative. Die Evaluationslogik bleibt identisch, da Kontext und Antwort strikt getrennt gespeichert werden. Genau hier zahlt sich LLM Qualitätssicherung mit DeepEval aus: die Tests sind unabhängig vom Generator.Gold-Dataset und Kontext vorbereiten
Kompaktes Wissensarchiv (DOCS)
Die Pipeline nutzt ein kleines Set an Dokumenten mit klaren Textbausteinen zu DeepEval und RAG-Metriken. Diese Snippets dienen als „Ground-Truth-Korpus“ für Retrieval und Begründung. Inhalte sind unter anderem:- DeepEval Überblick,
- Faithfulness im RAG-Kontext,
- Contextual Precision und Contextual Recall,
- Answer Relevancy,
- G-Eval (GEval) für freie Rubriken,
- Aufbau eines DeepEval Test Case,
- häufige Fallstricke wie fehlendes expected_output.
Eval-Queries und erwartete Antworten
Ein kleiner, aber präziser Fragekatalog deckt zentrale Konzepte ab, etwa „Was misst Faithfulness?“ oder „Was bedeutet Contextual Precision?“. Jede Query hat eine erwartete Antwort. Damit entsteht ein Goldstandard, der die Bewertung von Retrieval und Generation ermöglicht.Eigener Retriever: präzise TF-IDF-Suche
Bigrams und Cosine Similarity
Die Lösung bringt einen TfidfRetriever mit. Er kombiniert:- TF-IDF-Vektorisierung mit englischen Stopwörtern und N-Grammen (1–2),
- Cosine Similarity zur Relevanzbewertung,
- ein konsistentes Ranking der Top-k-Kontexte.
Top-k Ranking und Scores
Für jede Query liefert der Retriever die Top-k Treffer inklusive Score und Text. Diese Liste ist die Grundlage für alle folgenden Metriken. Sie bestimmt, ob die Antwort später „auf Belegen steht“ oder wichtige Informationen fehlen.Antwort-Generierung: LLM oder robuste Extraktion
OpenAI-gestütztes RAG-Prompting
Ist der OpenAI-Zugang aktiv, erzeugt eine Chat Completion (z. B. Modell gpt-4.1-mini) eine knappe Antwort nach einem einfachen RAG-Prompt:- Nur den bereitgestellten Kontext verwenden,
- bei fehlender Evidenz „Ich weiß es nicht“ sagen,
- Temperatur niedrig halten (0.2) für stabile Ergebnisse.
Fallback ohne API: extraktive Basis
Ohne API fällt die Pipeline auf eine extraktive Methode zurück. Sie zerlegt Kontexte in Sätze, gewichtet sie nach Query-Schlüsselwörtern und wählt die besten Sätze aus. Das ist nicht so flexibel wie ein LLM, läuft aber offline und liefert konsistente Baselines. Wichtig: Die Bewertung in DeepEval funktioniert für beide Varianten gleich, da die Retrieval-Kontexte separat vorliegen. Genau hier zeigt LLM Qualitätssicherung mit DeepEval ihren Wert: identische Tests, egal ob generativ oder extraktiv.Testfälle mit DeepEval modellieren
LLMTestCase Felder
Jeder Testfall enthält die Kerndaten:- input (die Benutzerfrage),
- retrieval_context (die geordnete Liste der Top-k-Kontexte),
- actual_output (die generierte oder extraktive Antwort),
- expected_output (die Goldantwort, wo erforderlich).
Trennung von Retrieval- und Antwort-Phase
Die Pipeline trennt sauber, was der Retriever liefert und was die Antwort erzeugt. Dadurch bleibt die Diagnose klar: Liegt ein Problem am Abruf (Recall/Precision) oder an der Antwort (Faithfulness/Relevancy)?Metriken, die zählen
Faithfulness: Absicherung gegen Halluzinationen
Faithfulness prüft, ob die Antwort durch den Retrieval-Kontext belegt ist. Behauptungen ohne Evidenz deuten auf Halluzinationen. Ein niedriger Score zeigt an, dass die Antwort losgelöst vom Kontext ist und der Prompt oder der Retriever nachgeschärft werden muss.Contextual Precision und Recall
Contextual Precision misst, ob relevante Kontexte früh im Ranking erscheinen. Hohe Precision reduziert Rauschen in der Generation. Contextual Recall misst, ob überhaupt genug relevante Informationen zurückkommen, um die Frage zu beantworten. Niedriger Recall weist auf verpasste Belege hin – ein klares Signal für Retriever-Tuning.Answer Relevancy und Contextual Relevancy
Answer Relevancy bewertet, ob die Antwort die Frage wirklich adressiert. Contextual Relevancy bewertet, ob die Auswahl der Kontexte zur Query passt. Zusammen zeigen beide Metriken, ob die Pipeline inhaltlich den richtigen Fokus setzt.G-Eval (GEval) für eigene Rubriken
Mit GEval lassen sich Rubriken in natürlicher Sprache definieren, etwa „Korrektheit, Ton, Policy“. Ein LLM beurteilt die Antwort entlang dieser Kriterien. So kann man projektspezifische Anforderungen abbilden, ohne eigene Heuristiken zu bauen.Bewertung durchführen und Ergebnisse lesen
evaluate() starten
Sind Testfälle und Metriken definiert, startet ein evaluate()-Aufruf die gesamte LLM-as-a-judge-Kette. Das System bewertet jeden Fall reproduzierbar und sammelt Scores plus Begründungen.Ergebnisse in DataFrame bündeln
Die Scores und Erklärungen werden in einem DataFrame zusammengeführt. Das erleichtert:- Gesamtübersichten und Mittelwerte,
- Vergleiche zwischen Queries,
- Export und Reporting.
Fehlerbilder erkennen
Mit den Metriken werden Muster sichtbar:- Niedrige Contextual Recall, aber gute Faithfulness: Der Retriever übersieht Belege; die Antwort ist korrekt, wenn Kontext vorhanden ist.
- Gute Recall/Precision, aber schwache Faithfulness: Die Antwort nutzt den Kontext nicht; der Prompt muss strenger führen.
- Hohe Answer Relevancy, aber schwache Faithfulness: Die Antwort passt zur Frage, ist aber nicht belegt – Halluzinationsrisiko.
Taktiken zur Verbesserung – geleitet von den Metriken
Retriever stärken
Wenn Contextual Recall niedrig ist:- k-Wert erhöhen, um mehr relevante Kontexte einzusammeln,
- N-Gramm-Einstellungen prüfen (1–2 Bigrams sind oft ein guter Start),
- Textvorbereitung verbessern (Titel plus Text wie im TfidfRetriever beibehalten).
- Ranking-Strategie prüfen und Rauschen verringern,
- Query-Formulierung normalisieren (Stoppwörter, Kleinschreibung),
- Überlappende oder redundante Chunks vermeiden.
Generation absichern
Schwache Faithfulness trotz gutem Retrieval deutet auf Prompt-Probleme:- Explizit nur Kontext erlauben,
- bei fehlender Evidenz „weiß ich nicht“ erzwingen,
- Temperatur niedrig setzen,
- Antworten kurz und belegt halten.
Eval-Set pflegen
Wenn Metriken stabil bleiben, aber das Produktverhalten abweicht, kann das Gold-Dataset Lücken haben:- Neue, reale Queries hinzufügen,
- expected_output ergänzen, wo Metriken es verlangen,
- Kontexte aktualisieren, wenn Wissensstände sich ändern.
Workflow-Ende: von Messwerten zu Entscheidungen
Am Schluss steht ein konsistenter Durchlauf über alle Testfälle. Die LLM-as-a-judge-Auswertung erzeugt nachvollziehbare Scores und qualitative Begründungen. Daraus lassen sich konkrete Entscheidungen ableiten:- Sind Änderungen am Retriever messbar besser? (Precision/Recall rauf?)
- Reduziert ein neuer Prompt Halluzinationen? (Faithfulness rauf?)
- Trifft die Antwort die Nutzerfrage klarer? (Answer Relevancy rauf?)
- Passt die Antwort zu Projektrichtlinien? (GEval erfüllt?)
Praxisnah und skalierbar: was dieses Setup auszeichnet
Einheitliche Tests für generativ und extraktiv
Egal ob OpenAI-Antwort oder extraktive Baseline: Die Testfälle nutzen dieselben Kontexte und Metriken. Das macht A/B-Vergleiche einfach und entkoppelt Bewertung von der jeweils verwendeten Generationsmethode.Transparente Fehleranalyse
Durch die strikte Trennung von Retrieval-Kontext und Antwort erkennt man schnell, ob ein Problem aus dem Abruf oder aus der Generation kommt. Das spart Zeit, weil man nicht „blind“ optimiert.Kompaktes, aber aussagekräftiges Set an Metriken
Mit Faithfulness, Contextual Precision/Recall, Answer Relevancy, Contextual Relevancy und GEval deckt das Setup die wichtigsten Dimensionen ab. Zusammen bilden sie ein praxisnahes Raster für RAG-Qualität.Von Notebook zu Produktion
Das Setup ist leichtgewichtig und portabel. Es lässt sich in CI/CD integrieren, um Regressionen früh zu erkennen. Für Releases gibt es dann messbare Nachweise, statt nur Demos. Am Ende zählt, dass Teams LLMs sicher und nachvollziehbar einsetzen. Diese Pipeline schafft genau das: Sie übersetzt Sprachmodelle in testbare Artefakte und macht Qualität messbar. Wer RAG ernsthaft betreibt, braucht wiederholbare Tests, klare Metriken und eine Datenbasis für Entscheidungen. LLM Qualitätssicherung mit DeepEval gibt dafür Struktur und Tempo: von der Stabilisierung der Umgebung, über den eigenen TF-IDF-Retriever, bis hin zu LLM-as-a-judge mit Faithfulness und Kontextmetriken. So lassen sich stille Fehler im Retrieval und Halluzinationen in der Antwort gezielt aufspüren und beheben. Mit diesen Bausteinen wird aus einem Experiment eine produktionsfähige Lösung – abgesichert durch klare Messwerte und verlässliche Prozesse. Genau deshalb lohnt sich LLM Qualitätssicherung mit DeepEval auch langfristig, bei jedem Modell- oder Prompt-Update.For more news: Click Here
FAQ
Contents