DeepEval Framework (2026 Edition)
Kompleksowy przewodnik po testowaniu, ewaluacji i red-teamingu aplikacji LLM przy użyciu otwartoźródłowego frameworka DeepEval oraz platformy Confident AI.
Odcinki
Pytest dla modeli LLM
4m 06sDeepEval wprowadza rygor Pytest do niedeterministycznych aplikacji LLM. W tym odcinku przyglądamy się głównej koncepcji frameworka oraz kluczowej różnicy między ewaluacją End-to-End a Component-Level.
Definiowanie interakcji z LLM
4m 07sNie możesz zmierzyć tego, czego wcześniej odpowiednio nie zdefiniujesz. Dowiedz się, jak LLMTestCase definiuje atomową jednostkę ewaluacji, włączając w to jej obowiązkowe i opcjonalne parametry.
Potęga LLM-as-a-Judge
4m 16sDowiedz się, jak DeepEval wykorzystuje LLM-as-a-judge do oceny przypadków testowych, zwracając wyniki od 0 do 1 wraz ze szczegółowym uzasadnieniem. Odkryj, jak konfigurować niestandardowe modele ewaluacyjne.
Ewaluacja generatorów RAG
4m 01sSkup się wyłącznie na stronie generowania w potokach RAG. Dowiedz się, jak metryki Answer Relevancy i Faithfulness zapewniają, że twój LLM odpowiada na prompt bez halucynacji.
Ewaluacja retrieverów RAG
4m 03sJeśli kontekst jest śmieciowy, odpowiedź również taka będzie. Odkryj, jak Contextual Precision, Recall i Relevancy oceniają jakość twojego silnika wyszukiwania.
Ewaluacja agentów
3m 43sEwaluacja autonomicznych agentów wymaga analizy złożonych przepływów wykonania. Dowiedz się, jak metryki Task Completion i Tool Correctness trzymają wieloetapowych agentów w ryzach.
Ewaluacja konwersacji wieloturowych
4m 03sChatboty wymagają ewaluacji całej historii konwersacji. Dowiedz się, jak ConversationalTestCase i specjalistyczne metryki śledzą Role Adherence oraz Knowledge Retention na przestrzeni wielu tur.
Budowanie niestandardowych metryk z G-Eval
3m 46sGdy standardowe metryki zawodzą, zbuduj własne. Odkryj, jak G-Eval pozwala definiować niestandardowe kryteria ewaluacji w prostym języku angielskim przy użyciu dwuetapowego algorytmu CoT.
Deterministyczna ewaluacja z DAG
3m 19sPrzejmij całkowitą kontrolę nad swoimi ewaluacjami. Dowiedz się, jak metryka Deep Acyclic Graph (DAG) wykorzystuje drzewa decyzyjne do deterministycznej oceny złożonego formatowania i logiki.
Zbiór danych ewaluacyjnych
3m 33sSkaluj swoje testy, budując solidne zbiory danych. Odkryj, jak EvaluationDatasets grupują Goldens, rozróżniają dane jedno- i wieloturowe oraz importują z CSV/JSON.
Generowanie danych syntetycznych
3m 49sNie masz prawdziwych danych użytkowników? Dowiedz się, jak używać narzędzia Synthesizer do automatycznego generowania wysokiej jakości Goldens bezpośrednio z dokumentów twojej bazy wiedzy.
Zwiększanie złożoności danych syntetycznych
4m 04sPodstawowe zapytania są zbyt proste dla nowoczesnych modeli LLM. Zanurz się w EvolutionConfig, aby sztucznie komplikować syntetyczne zapytania przy użyciu technik takich jak Reasoning i Concretizing.
Śledzenie i obserwowalność LLM
3m 27sWyjdź poza testowanie czarnoskrzynkowe. Dowiedz się, jak używać dekoratora @observe do śledzenia komponentów, tworzenia spanów i uzyskania widoczności białoskrzynkowej w twoich potokach LLM.
Dynamiczne ewaluacje w czasie działania
4m 03sGdy przepływy pracy są nieprzewidywalne, buduj swoje przypadki testowe dynamicznie. Dowiedz się, jak używać update_current_span do wstrzykiwania testów w miarę przepływu danych przez agenta.
Wprowadzenie do red-teamingu
4m 32sPoprawność to nie bezpieczeństwo. Poznaj framework DeepTeam i naucz się czterech głównych komponentów red-teamingu: Vulnerabilities, Attacks, Targets oraz Metrics.
Wykonywanie ataków adwersarzowych
3m 47sZautomatyzuj swoje testy bezpieczeństwa. Dowiedz się, jak skonfigurować Model Callback w DeepTeam i uruchamiać prompt injections, aby automatycznie odkrywać uprzedzenia i błędy.
CI/CD i ciągła ewaluacja
3m 42sPrzestań wdrażać w ciemno. Dowiedz się, jak zintegrować DeepEval ze swoimi potokami CI/CD przy użyciu integracji Pytest, aby wyłapać regresje LLM, zanim trafią na produkcję.
Finał - Skalowanie z Confident AI
4m 25sPrzenieś swoje ewaluacje do chmury. Odkryj, jak Confident AI centralizuje raporty z testów, śledzi hiperparametry i monitoruje regresje w całym twoim zespole.