Insights KI Neuigkeiten LLM Qualitätssicherung mit DeepEval: Wie man RAG prüft
post

KI Neuigkeiten

28 Jan. 2026

Read 14 min

LLM Qualitätssicherung mit DeepEval: Wie man RAG prüft

LLM Qualitätssicherung mit DeepEval macht RAG messbar und reproduzierbar und findet Halluzinationen.

Wer LLMs produktionsreif betreiben will, braucht messbare Qualität. LLM Qualitätssicherung mit DeepEval bringt Unit-Testing in RAG-Pipelines: von Retrieval bis Antwort. Mit LLM-as-a-judge, Faithfulness und Kontextmetriken prüfen Teams systematisch Halluzinationen, Relevanz und Abdeckung – reproduzierbar, skalierbar und ohne manuelle Sichtprüfung. Ein großes Sprachmodell kann glänzen und trotzdem scheitern, wenn Antworten nicht im Kontext verankert sind oder die Suche wichtige Belege übersieht. Die hier gezeigte Pipeline macht Schluss mit Raten. Sie behandelt das Modell wie testbaren Code und misst jede Stufe – vom Abruf der Dokumente bis zur finalen Antwort – mit klaren, nachvollziehbaren Kriterien. So entsteht eine belastbare Grundlage, um RAG-Architekturen zu verbessern, anstatt nur Symptome zu kurieren. LLM Qualitätssicherung mit DeepEval ist dabei der rote Faden, der alles vom Datensatz über den Retriever bis zur Bewertung zusammenhält.

Warum LLM Qualitätssicherung mit DeepEval jetzt nötig ist

Von Bauchgefühl zu Messwerten

Viele Teams prüfen LLM-Antworten mit Stichproben. Das reicht nicht. DeepEval bringt Unit-Testing-Denken in LLM-Workflows: Jede Ausgabe wird wie ein Testfall behandelt, jede Annahme wird mit Daten belegt. So lassen sich Fehlerbilder stabil nachweisen, rückverfolgen und beheben.

LLM-as-a-judge verständlich

Mit LLM-as-a-judge bewertet ein Modell die Qualität anderer Modellantworten nach vorgegebenen Rubriken. Das ermöglicht:
  • feinkörnige Bewertungen, wenn klassische Metriken (z. B. Rouge) nicht passen,
  • Skalierung über viele Testfälle,
  • einheitliche Maßstäbe für verschiedene Prompts und Modelle.
DeepEval integriert diese Methode mit vordefinierten und anpassbaren Metriken.

Die Evaluations-Umgebung aufsetzen

Robustes Setup

Die Pipeline stabilisiert zuerst zentrale Abhängigkeiten und installiert benötigte Pakete. Ein gezieltes Neuinstallieren von numpy (Version 1.26.4) verhindert bekannte Inkompatibilitäten. Anschließend werden deepeval, openai, scikit-learn, pandas und tqdm geladen. So startet die Umgebung verlässlich, auch in Notebook-Umfeldern.

API-Schlüssel optional

Ein OpenAI-API-Key kann gesetzt werden. Ist er vorhanden, werden Antworten per LLM erzeugt. Fehlt er, gibt es eine robuste Offline-Alternative. Die Evaluationslogik bleibt identisch, da Kontext und Antwort strikt getrennt gespeichert werden. Genau hier zahlt sich LLM Qualitätssicherung mit DeepEval aus: die Tests sind unabhängig vom Generator.

Gold-Dataset und Kontext vorbereiten

Kompaktes Wissensarchiv (DOCS)

Die Pipeline nutzt ein kleines Set an Dokumenten mit klaren Textbausteinen zu DeepEval und RAG-Metriken. Diese Snippets dienen als „Ground-Truth-Korpus“ für Retrieval und Begründung. Inhalte sind unter anderem:
  • DeepEval Überblick,
  • Faithfulness im RAG-Kontext,
  • Contextual Precision und Contextual Recall,
  • Answer Relevancy,
  • G-Eval (GEval) für freie Rubriken,
  • Aufbau eines DeepEval Test Case,
  • häufige Fallstricke wie fehlendes expected_output.

Eval-Queries und erwartete Antworten

Ein kleiner, aber präziser Fragekatalog deckt zentrale Konzepte ab, etwa „Was misst Faithfulness?“ oder „Was bedeutet Contextual Precision?“. Jede Query hat eine erwartete Antwort. Damit entsteht ein Goldstandard, der die Bewertung von Retrieval und Generation ermöglicht.

Eigener Retriever: präzise TF-IDF-Suche

Bigrams und Cosine Similarity

Die Lösung bringt einen TfidfRetriever mit. Er kombiniert:
  • TF-IDF-Vektorisierung mit englischen Stopwörtern und N-Grammen (1–2),
  • Cosine Similarity zur Relevanzbewertung,
  • ein konsistentes Ranking der Top-k-Kontexte.
So lassen sich die relevantesten Textblöcke aus den DOCS reproduzierbar finden.

Top-k Ranking und Scores

Für jede Query liefert der Retriever die Top-k Treffer inklusive Score und Text. Diese Liste ist die Grundlage für alle folgenden Metriken. Sie bestimmt, ob die Antwort später „auf Belegen steht“ oder wichtige Informationen fehlen.

Antwort-Generierung: LLM oder robuste Extraktion

OpenAI-gestütztes RAG-Prompting

Ist der OpenAI-Zugang aktiv, erzeugt eine Chat Completion (z. B. Modell gpt-4.1-mini) eine knappe Antwort nach einem einfachen RAG-Prompt:
  • Nur den bereitgestellten Kontext verwenden,
  • bei fehlender Evidenz „Ich weiß es nicht“ sagen,
  • Temperatur niedrig halten (0.2) für stabile Ergebnisse.

Fallback ohne API: extraktive Basis

Ohne API fällt die Pipeline auf eine extraktive Methode zurück. Sie zerlegt Kontexte in Sätze, gewichtet sie nach Query-Schlüsselwörtern und wählt die besten Sätze aus. Das ist nicht so flexibel wie ein LLM, läuft aber offline und liefert konsistente Baselines. Wichtig: Die Bewertung in DeepEval funktioniert für beide Varianten gleich, da die Retrieval-Kontexte separat vorliegen. Genau hier zeigt LLM Qualitätssicherung mit DeepEval ihren Wert: identische Tests, egal ob generativ oder extraktiv.

Testfälle mit DeepEval modellieren

LLMTestCase Felder

Jeder Testfall enthält die Kerndaten:
  • input (die Benutzerfrage),
  • retrieval_context (die geordnete Liste der Top-k-Kontexte),
  • actual_output (die generierte oder extraktive Antwort),
  • expected_output (die Goldantwort, wo erforderlich).
Bestimmte RAG-Metriken verlangen expected_output. Fehlt sie, können etwa Contextual Precision/Recall nicht korrekt rechnen. Dieses Detail verhindert häufige Fehlkonfigurationen.

Trennung von Retrieval- und Antwort-Phase

Die Pipeline trennt sauber, was der Retriever liefert und was die Antwort erzeugt. Dadurch bleibt die Diagnose klar: Liegt ein Problem am Abruf (Recall/Precision) oder an der Antwort (Faithfulness/Relevancy)?

Metriken, die zählen

Faithfulness: Absicherung gegen Halluzinationen

Faithfulness prüft, ob die Antwort durch den Retrieval-Kontext belegt ist. Behauptungen ohne Evidenz deuten auf Halluzinationen. Ein niedriger Score zeigt an, dass die Antwort losgelöst vom Kontext ist und der Prompt oder der Retriever nachgeschärft werden muss.

Contextual Precision und Recall

Contextual Precision misst, ob relevante Kontexte früh im Ranking erscheinen. Hohe Precision reduziert Rauschen in der Generation. Contextual Recall misst, ob überhaupt genug relevante Informationen zurückkommen, um die Frage zu beantworten. Niedriger Recall weist auf verpasste Belege hin – ein klares Signal für Retriever-Tuning.

Answer Relevancy und Contextual Relevancy

Answer Relevancy bewertet, ob die Antwort die Frage wirklich adressiert. Contextual Relevancy bewertet, ob die Auswahl der Kontexte zur Query passt. Zusammen zeigen beide Metriken, ob die Pipeline inhaltlich den richtigen Fokus setzt.

G-Eval (GEval) für eigene Rubriken

Mit GEval lassen sich Rubriken in natürlicher Sprache definieren, etwa „Korrektheit, Ton, Policy“. Ein LLM beurteilt die Antwort entlang dieser Kriterien. So kann man projektspezifische Anforderungen abbilden, ohne eigene Heuristiken zu bauen.

Bewertung durchführen und Ergebnisse lesen

evaluate() starten

Sind Testfälle und Metriken definiert, startet ein evaluate()-Aufruf die gesamte LLM-as-a-judge-Kette. Das System bewertet jeden Fall reproduzierbar und sammelt Scores plus Begründungen.

Ergebnisse in DataFrame bündeln

Die Scores und Erklärungen werden in einem DataFrame zusammengeführt. Das erleichtert:
  • Gesamtübersichten und Mittelwerte,
  • Vergleiche zwischen Queries,
  • Export und Reporting.

Fehlerbilder erkennen

Mit den Metriken werden Muster sichtbar:
  • Niedrige Contextual Recall, aber gute Faithfulness: Der Retriever übersieht Belege; die Antwort ist korrekt, wenn Kontext vorhanden ist.
  • Gute Recall/Precision, aber schwache Faithfulness: Die Antwort nutzt den Kontext nicht; der Prompt muss strenger führen.
  • Hohe Answer Relevancy, aber schwache Faithfulness: Die Antwort passt zur Frage, ist aber nicht belegt – Halluzinationsrisiko.
Solche Muster zeigen klar, an welcher Stelle der Pipeline man ansetzt. LLM Qualitätssicherung mit DeepEval macht diese Diagnose planbar.

Taktiken zur Verbesserung – geleitet von den Metriken

Retriever stärken

Wenn Contextual Recall niedrig ist:
  • k-Wert erhöhen, um mehr relevante Kontexte einzusammeln,
  • N-Gramm-Einstellungen prüfen (1–2 Bigrams sind oft ein guter Start),
  • Textvorbereitung verbessern (Titel plus Text wie im TfidfRetriever beibehalten).
Wenn Contextual Precision schwächelt:
  • Ranking-Strategie prüfen und Rauschen verringern,
  • Query-Formulierung normalisieren (Stoppwörter, Kleinschreibung),
  • Überlappende oder redundante Chunks vermeiden.

Generation absichern

Schwache Faithfulness trotz gutem Retrieval deutet auf Prompt-Probleme:
  • Explizit nur Kontext erlauben,
  • bei fehlender Evidenz „weiß ich nicht“ erzwingen,
  • Temperatur niedrig setzen,
  • Antworten kurz und belegt halten.

Eval-Set pflegen

Wenn Metriken stabil bleiben, aber das Produktverhalten abweicht, kann das Gold-Dataset Lücken haben:
  • Neue, reale Queries hinzufügen,
  • expected_output ergänzen, wo Metriken es verlangen,
  • Kontexte aktualisieren, wenn Wissensstände sich ändern.

Workflow-Ende: von Messwerten zu Entscheidungen

Am Schluss steht ein konsistenter Durchlauf über alle Testfälle. Die LLM-as-a-judge-Auswertung erzeugt nachvollziehbare Scores und qualitative Begründungen. Daraus lassen sich konkrete Entscheidungen ableiten:
  • Sind Änderungen am Retriever messbar besser? (Precision/Recall rauf?)
  • Reduziert ein neuer Prompt Halluzinationen? (Faithfulness rauf?)
  • Trifft die Antwort die Nutzerfrage klarer? (Answer Relevancy rauf?)
  • Passt die Antwort zu Projektrichtlinien? (GEval erfüllt?)
Die Pipeline schafft damit einen belastbaren Qualitätsrahmen für iterative Entwicklung.

Praxisnah und skalierbar: was dieses Setup auszeichnet

Einheitliche Tests für generativ und extraktiv

Egal ob OpenAI-Antwort oder extraktive Baseline: Die Testfälle nutzen dieselben Kontexte und Metriken. Das macht A/B-Vergleiche einfach und entkoppelt Bewertung von der jeweils verwendeten Generationsmethode.

Transparente Fehleranalyse

Durch die strikte Trennung von Retrieval-Kontext und Antwort erkennt man schnell, ob ein Problem aus dem Abruf oder aus der Generation kommt. Das spart Zeit, weil man nicht „blind“ optimiert.

Kompaktes, aber aussagekräftiges Set an Metriken

Mit Faithfulness, Contextual Precision/Recall, Answer Relevancy, Contextual Relevancy und GEval deckt das Setup die wichtigsten Dimensionen ab. Zusammen bilden sie ein praxisnahes Raster für RAG-Qualität.

Von Notebook zu Produktion

Das Setup ist leichtgewichtig und portabel. Es lässt sich in CI/CD integrieren, um Regressionen früh zu erkennen. Für Releases gibt es dann messbare Nachweise, statt nur Demos. Am Ende zählt, dass Teams LLMs sicher und nachvollziehbar einsetzen. Diese Pipeline schafft genau das: Sie übersetzt Sprachmodelle in testbare Artefakte und macht Qualität messbar. Wer RAG ernsthaft betreibt, braucht wiederholbare Tests, klare Metriken und eine Datenbasis für Entscheidungen. LLM Qualitätssicherung mit DeepEval gibt dafür Struktur und Tempo: von der Stabilisierung der Umgebung, über den eigenen TF-IDF-Retriever, bis hin zu LLM-as-a-judge mit Faithfulness und Kontextmetriken. So lassen sich stille Fehler im Retrieval und Halluzinationen in der Antwort gezielt aufspüren und beheben. Mit diesen Bausteinen wird aus einem Experiment eine produktionsfähige Lösung – abgesichert durch klare Messwerte und verlässliche Prozesse. Genau deshalb lohnt sich LLM Qualitätssicherung mit DeepEval auch langfristig, bei jedem Modell- oder Prompt-Update.

(Source: https://www.marktechpost.com/2026/01/25/a-coding-implementation-to-automating-llm-quality-assurance-with-deepeval-custom-retrievers-and-llm-as-a-judge-metrics/)

For more news: Click Here

FAQ

Q: Was versteht man unter LLM Qualitätssicherung mit DeepEval und welches Ziel verfolgt sie? A: LLM Qualitätssicherung mit DeepEval bringt Unit-Testing-Prinzipien in RAG‑Pipelines, indem jede Query, der Retrieval‑Kontext und die generierte Antwort als Testfall behandelt werden. Ziel ist eine reproduzierbare, skalierbare Bewertung von Halluzinationen, Relevanz und Abdeckung ohne manuelle Sichtprüfung. Q: Warum ist LLM Qualitätssicherung mit DeepEval für produktionsreife LLMs wichtig? A: Viele Teams prüfen LLM‑Ausgaben nur stichprobenartig, was systematische Fehlerbilder nicht zuverlässig aufdeckt, und LLM Qualitätssicherung mit DeepEval liefert stattdessen messbare Testfälle und nachvollziehbare Metriken. Dadurch lassen sich Ursachen gezielt beheben und RAG‑Architekturen verbessern statt nur Symptome zu behandeln. Q: Wie funktioniert das LLM‑as‑a‑judge‑Verfahren in diesem Evaluations‑Setup? A: Ein LLM bewertet dort die Qualität anderer Modellantworten anhand natürlicher Sprachrubriken wie GEval, wobei Kriterien wie Korrektheit, Ton und Policy geprüft werden. LLM Qualitätssicherung mit DeepEval integriert diese LLM‑as‑a‑judge‑Messungen, um feinkörnige und skalierbare Bewertungen zu ermöglichen. Q: Welche Metriken nutzt LLM Qualitätssicherung mit DeepEval zur Bewertung von Antworten? A: LLM Qualitätssicherung mit DeepEval verwendet Metriken wie Faithfulness, Contextual Precision und Recall, Answer Relevancy, Contextual Relevancy sowie GEval für freie Rubriken. Diese Metriken decken verschiedene Fehlerarten ab und ermöglichen eine gezielte Diagnose von Abruf‑ oder Generationsproblemen. Q: Wie arbeitet der eingesetzte TF‑IDF‑Retriever und welche Rolle spielt er für LLM Qualitätssicherung mit DeepEval? A: Der TfidfRetriever nutzt TF‑IDF‑Vektorisierung mit 1–2‑Gramm und Cosine Similarity, um Top‑k‑Kontexte zu ranken und Scores bereitzustellen. Diese retrieval_contexts bilden die Grundlage für die DeepEval‑Testfälle und sind zentral für die Messbarkeit in LLM Qualitätssicherung mit DeepEval. Q: Was passiert, wenn kein OpenAI‑API‑Schlüssel verfügbar ist und wie beeinflusst das die Evaluation? A: Ohne API‑Schlüssel fällt die Pipeline auf eine extraktive Basisvariante zurück, die relevante Sätze nach Keywords gewichtet und als Fallback konsistente Antworten liefert. Da Retrieval‑Kontext und Antwort getrennt gespeichert werden, bleibt LLM Qualitätssicherung mit DeepEval unverändert vergleichbar und bewertbar. Q: Welche typischen Fehlerbilder macht LLM Qualitätssicherung mit DeepEval sichtbar und wie hilft das bei der Diagnose? A: LLM Qualitätssicherung mit DeepEval zeigt Muster wie niedrigen Contextual Recall bei guter Faithfulness (Retrieval übersieht Belege), gute Recall/Precision aber schwache Faithfulness (Prompt nutzt Kontext nicht) oder hohe Answer Relevancy bei schwacher Faithfulness (ungenügende Belegung und Halluzinationsrisiko). Solche Muster machen sichtbar, ob man am Retriever, am Prompt oder am Gold‑Dataset ansetzen muss. Q: Wie lassen sich die Ergebnisse aus LLM Qualitätssicherung mit DeepEval praktisch verwenden, um Produktionstauglichkeit zu erreichen? A: LLM Qualitätssicherung mit DeepEval liefert Scores und Begründungen, mit denen sich Maßnahmen ableiten lassen wie k erhöhen, N‑Gram‑ und Textvorverarbeitung anpassen, Ranking‑Strategien oder Prompts strenger gestalten sowie das Gold‑Dataset pflegen. Diese metric‑getriebenen Änderungen können in CI/CD‑Pipelines integriert werden, um Regressionen früh zu erkennen und die Produktionsreife zu sichern.

Contents