Dave Ebbelaar. Действующий AI-инженер проходится по своей реальной лестнице evals — unit-тесты в стиле assert, метрики без эталонов, согласование LLM-as-judge с людьми и цикл «анализируй–измеряй–улучшай». Структура — самое близкое совпадение на видео к тезису статьи, что evals — это система ловли регрессий, а не лидерборд.
Концепция остаётся полезной, но проверьте примеры на актуальных инструментах перед применением в реальной работе.
Действующий AI-инженер проходится по своей реальной лестнице evals — unit-тесты в стиле assert, метрики без эталонов, согласование LLM-as-judge с людьми и цикл «анализируй–измеряй–улучшай». Структура — самое близкое…
Полезно понимать API, автоматизации, RAG или базовую архитектуру агентов.
Продолжайте тот же учебный путь со следующими отобранными видео-компаньонами.