Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 8 - LLM Evaluation

109 минЭкспертИИ для бизнеса

Stanford Online. Методичный проход по rule-based метрикам, смещениям LLM-as-judge, оценке фактологичности и агентов и режимам отказа статичных бенчмарков. Используйте как теоретического спутника к разделу статьи про выбор того, что измерять, и почему большинство готовых метрик недооценивают реальные регрессии.

Заметка AI Expert

Концепция остаётся полезной, но проверьте примеры на актуальных инструментах перед применением в реальной работе.

Что вынести из этого видео

Оценить архитектурный подход, возможные сбои и защитные меры до разработки.

Что посмотреть или знать заранее

Полезно понимать API, автоматизации, RAG или базовую архитектуру агентов.

Смотреть дальше

Продолжайте тот же учебный путь со следующими связанными видео.

Instrumenting & Evaluating LLMs

Оценить архитектурный подход, возможные сбои и защитные меры до разработки.

Смотреть дальше

Building Agents with Model Context Protocol - Full Workshop with Mahesh Murag of Anthropic

Оценить архитектурный подход, возможные сбои и защитные меры до разработки.

Смотреть дальше

Prompting for Agents | Code w/ Claude

Оценить архитектурный подход, возможные сбои и защитные меры до разработки.

Смотреть дальше

Похожие видео

Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings

How to Build Human-Centered AI Workflows in Localization with Shashi Bhushan

От хайпа к привычке: как технологические компании масштабируют ИИ дальше экспериментов

Private AI против cloud: как лидерам принимать более умные build-or-buy решения

Углубиться

Тщательно подобранные внешние курсы, которые глубже раскрывают эту тему.

Coursera · DeepLearning.AI

AI for Everyone

Эндрю Ын

Шесть лет спустя — самая чистая точка входа для тех, кому нужно разобраться в ИИ без программирования. Без математики, без жаргона, без хайпа — после прохождения вы сможете вести осознанные разговоры о проектах с ИИ.

Новичок в ИИ~6 часовПроверено 25 дней назад

Coursera · The Wharton School

AI Strategy and Governance

Kartik Hosanagar · Kevin Werbach · Prasanna Tambe · Lynn Wu

Сильная рамка Wharton для руководителей, принимающих решения «строить или покупать». Курс не продаёт инструменты, а фокусируется на экономике внедрения ИИ, алгоритмической предвзятости, доверии к данным и практиках управления, которые выдерживают аудит.

Эксперт~10 часовПроверено 25 дней назад

Все курсы в категории «ИИ для бизнеса»