Inteligencia Artificial
Evaluación y Observabilidad de Sistemas IA
Curso técnico sobre cómo evaluar y monitorear sistemas con LLMs en producción. Cubrirás benchmarks públicos (MMLU, MT-Bench, Chatbot Arena, HELM, AgentBench), construcción de evals custom y golden datasets, técnica de LLM-as-judge con sus sesgos (position bias...
📊 Intermedio
📚 11 módulos
⏱ 9 h 30 min 🎓 Certificado oficial
Sobre el curso
Curso técnico sobre cómo evaluar y monitorear sistemas con LLMs en producción. Cubrirás benchmarks públicos (MMLU, MT-Bench, Chatbot Arena, HELM, AgentBench), construcción de evals custom y golden datasets, técnica de LLM-as-judge con sus sesgos (position bias, length bias, self-preference) y mitigaciones, tracing y observabilidad de pipelines complejos, detección de drift y regresiones, y frameworks productivos (LangSmith, Braintrust, Helicone, Phoenix, W&B Weave). El curso que evita postmortems caros: medir antes de prometer, monitorear antes de romper.