Lenny's Podcast. Хамел Хусейн и Шрея Шанкар проходят весь воркфлоу evals на реальном ИИ-ассистенте по управлению недвижимостью — смотрят трассировки, открытое и осевое кодирование ошибок, решают, когда остановиться, строят LLM-as-judge и валидируют его против человеческого суждения. Это редкий длинный разговор, действительно нацеленный на продактов и тимлидов, а не на ML-инженеров, и он покрывает тот же ритм «30 минут в неделю после настройки», который рекомендует статья.
Концепция остаётся полезной, но проверьте примеры на актуальных инструментах перед применением в реальной работе.
Хамел Хусейн и Шрея Шанкар проходят весь воркфлоу evals на реальном ИИ-ассистенте по управлению недвижимостью — смотрят трассировки, открытое и осевое кодирование ошибок, решают, когда остановиться, строят LLM-as-judge…
Полезно понимать бизнес-процессы, риски и практические сценарии применения ИИ.
Продолжайте тот же учебный путь со следующими отобранными видео-компаньонами.