DeepEval Framework (2026 Edition)
Ein umfassender Leitfaden zum Testen, Evaluieren und Red-Teaming von LLM-Anwendungen mit dem Open-Source-Framework DeepEval und der Confident AI-Plattform.
Episoden
Das Pytest für LLMs
4m 07sDeepEval bringt die Strenge von Pytest in nicht-deterministische LLM-Anwendungen. In dieser Episode untersuchen wir die Kernidentität des Frameworks und den entscheidenden Unterschied zwischen End-to-End- und Component-Level-Evaluierungen.
Die Definition der LLM-Interaktion
4m 31sMan kann nicht messen, was man nicht richtig definiert hat. Erfahren Sie, wie der LLMTestCase eine atomare Evaluierungseinheit definiert, einschließlich seiner obligatorischen und optionalen Parameter.
Die Macht von LLM-as-a-Judge
3m 57sErfahren Sie, wie DeepEval LLM-as-a-judge verwendet, um Testfälle zu evaluieren, und dabei Scores von 0 bis 1 zusammen mit detaillierten Begründungen zurückgibt. Entdecken Sie, wie Sie benutzerdefinierte Evaluierungsmodelle konfigurieren.
Evaluierung von RAG-Generatoren
4m 14sKonzentrieren Sie sich rein auf die Generierungsseite von RAG-Pipelines. Erfahren Sie, wie die Metriken Answer Relevancy und Faithfulness sicherstellen, dass Ihr LLM den Prompt beantwortet, ohne zu halluzinieren.
Evaluierung von RAG-Retrievers
4m 06sWenn der Kontext Müll ist, wird auch die Antwort Müll sein. Entdecken Sie, wie Contextual Precision, Recall und Relevancy die Qualität Ihrer Retrieval-Engine bewerten.
Agenten-Evaluierung
4m 05sDie Evaluierung autonomer Agenten erfordert die Analyse komplexer Ausführungsabläufe. Erfahren Sie, wie die Metriken Task Completion und Tool Correctness Multi-Step-Agenten unter Kontrolle halten.
Evaluierung von Multi-Turn-Konversationen
4m 00sChatbots erfordern die Evaluierung des gesamten Konversationsverlaufs. Erfahren Sie, wie ConversationalTestCase und spezialisierte Metriken Role Adherence und Knowledge Retention über mehrere Turns hinweg verfolgen.
Erstellung benutzerdefinierter Metriken mit G-Eval
4m 15sWenn Standardmetriken versagen, erstellen Sie Ihre eigenen. Entdecken Sie, wie G-Eval es Ihnen ermöglicht, benutzerdefinierte Evaluierungskriterien in einfachem Englisch mithilfe eines 2-stufigen CoT-Algorithmus zu definieren.
Deterministische Evaluierung mit DAG
3m 39sÜbernehmen Sie die absolute Kontrolle über Ihre Evaluierungen. Erfahren Sie, wie die Deep Acyclic Graph (DAG)-Metrik Entscheidungsbäume verwendet, um komplexe Formatierungen und Logik deterministisch zu beurteilen.
Das Evaluation Dataset
3m 40sSkalieren Sie Ihre Tests durch den Aufbau robuster Datensätze. Entdecken Sie, wie EvaluationDatasets Goldens gruppieren, zwischen Single- und Multi-Turn-Daten unterscheiden und aus CSV/JSON importieren.
Generierung synthetischer Daten
3m 40sSie haben keine echten Benutzerdaten? Erfahren Sie, wie Sie den Synthesizer verwenden, um automatisch hochwertige Goldens direkt aus den Dokumenten Ihrer Wissensdatenbank zu generieren.
Entwicklung synthetischer Komplexität
4m 02sEinfache Abfragen sind für moderne LLMs zu leicht. Tauchen Sie tief in EvolutionConfig ein, um synthetische Abfragen mit Techniken wie Reasoning und Concretizing künstlich zu verkomplizieren.
LLM-Tracing und Observability
3m 47sGehen Sie über Black-Box-Testing hinaus. Erfahren Sie, wie Sie den @observe-Decorator verwenden, um Komponenten zu tracen, Spans zu erstellen und White-Box-Sichtbarkeit in Ihre LLM-Pipelines zu erhalten.
Dynamische Evals zur Laufzeit
4m 19sWenn Workflows unvorhersehbar sind, erstellen Sie Ihre Testfälle dynamisch. Erfahren Sie, wie Sie update_current_span verwenden, um Tests zu injizieren, während Daten durch den Agenten fließen.
Einführung in Red Teaming
4m 19sKorrektheit ist nicht gleich Sicherheit. Erkunden Sie das DeepTeam-Framework und lernen Sie die vier Kernkomponenten des Red Teamings kennen: Vulnerabilities, Attacks, Targets und Metrics.
Ausführung von Adversarial Attacks
4m 06sAutomatisieren Sie Ihre Sicherheitstests. Erfahren Sie, wie Sie einen Model Callback in DeepTeam konfigurieren und Prompt Injections starten, um automatisch Voreingenommenheiten und Fehler aufzudecken.
CI/CD und Continuous Evaluation
3m 55sHören Sie auf, blind bereitzustellen. Erfahren Sie, wie Sie DeepEval mithilfe von Pytest-Integrationen in Ihre CI/CD-Pipelines integrieren, um LLM-Regressionen abzufangen, bevor sie in die Produktion gelangen.
Das Finale - Skalieren mit Confident AI
4m 35sBringen Sie Ihre Evals in die Cloud. Entdecken Sie, wie Confident AI Testberichte zentralisiert, Hyperparameter verfolgt und Regressionen für Ihr gesamtes Team überwacht.