Question 1

Was ist der Unterschied zwischen Offline- und Online-Evaluation?

Accepted Answer

Offline-Evaluation läuft auf einem festen Test-Set, vor dem Deployment, automatisiert und schnell. Online-Evaluation läuft in Produktion mit echten Nutzern (z. B. via A/B-Test) und misst echte Outcomes - dauert länger, ist aber näher an der Wahrheit. Beides braucht man.

Question 2

Wir nutzen schon ChatGPT API. Brauchen wir trotzdem Evaluation?

Accepted Answer

Ja, gerade dann. Wenn Sie kein eigenes Modell trainieren, ist Ihre einzige Kontrolle über Qualität die Evaluation. Sonst merken Sie erst beim Kundengespräch, dass das letzte OpenAI-Modell-Update etwas in Ihrem Prompt kaputt gemacht hat.

Question 3

Wie viele Test-Cases brauchen wir mindestens?

Accepted Answer

Faustregel: Mindestens 50 für ein erstes brauchbares Signal, 200+ für statistisch belastbare Aussagen, 1000+ für Edge-Case-Coverage. Wichtiger als die reine Anzahl ist die Qualität - echte Daten aus Ihrem Use-Case, mit guten Labels.

Question 4

Können Sie auch Eval für bestehende Systeme nachträglich aufbauen?

Accepted Answer

Ja, das ist sogar einer der häufigsten Aufträge. Viele Teams haben ein produktives KI-System ohne strukturierte Evaluation und merken erst nach Monaten, dass die Qualität schleichend nachlässt. Eval-Frameworks lassen sich auch nachträglich einbauen.

Question 5

Was kostet der Aufbau eines Eval-Frameworks?

Accepted Answer

Audit (1-2 Wochen) typischerweise im niedrigen vierstelligen Eurobereich. Vollständiger Framework-Aufbau (3-6 Wochen) im niedrigen bis mittleren fünfstelligen Bereich, abhängig von Komplexität und Test-Set-Größe.

Question 6

Setzen Sie auf bestimmte Tools oder Frameworks?

Accepted Answer

Nein. Wir haben keine Affiliate-Verträge - die Tool-Wahl richtet sich nach Ihrem Stack und Ihren Anforderungen.

AI Evaluation für Produktivsysteme

Warum LLM-Evaluation / AI-Evaluation der unterschätzteste Teil jedes KI-Projekts ist

Was eine gute AI-Evaluation umfasst

Evaluation für KI-Agenten - wo es richtig schwierig wird

Welche Frameworks und Tools wir typischerweise einsetzen

Wie wir Sie bei LLM-Evaluation unterstützen

Was diese LLM-Evaluation-Beratung anders macht

Häufige Fragen zur LLM Evaluation

Lassen Sie uns reden.