Stanford CME295 Transformers & LLMs | sügis 2025 | loeng 8 - LLM-i hindamine

109 minutitEkspertAI ettevõttes

Stanford Online. Metoodiline läbikäik reeglipõhistest mõõdikutest, LLM-as-judge eelarvamustest, faktiline täpsus ja agentide hindamine ning staatiliste benchmarkide vigade režiimid. Kasuta seda teooria-kaaslasena artikli sektsioonile selle kohta, mida mõõta ja miks enamik valmis mõõdikuid päris regressioone alahindab.

AI Experti märkus

Kontseptsioon on endiselt kasulik, kuid kontrolli näiteid praeguste tööriistadega enne päristöös kasutamist.

Mida sellest videost kaasa võtta

Saad tehnilise mustri teemal "Evaluatsioonide ehitamine, mis regressioone päriselt püüavad" ning oskad hinnata riske, piire ja järgmist sammu.

Mida enne vaadata või teada

Kasuks tuleb arusaam API-dest, automatsioonidest, RAG-ist või agentide tööpõhimõtetest.

Järgmisena vaata

Jätka sama õpiteekonda järgmiste hoolikalt valitud kaasvideotega.

LLM-ide instrumenteerimine ja hindamine

Saad tehnilise mustri teemal "Observability LLM-rakendustele" ning oskad hinnata riske, piire ja järgmist sammu.

Vaata järgmist

Agentide ehitamine Model Context Protocoliga - täistöötuba Anthropicu Mahesh Muragiga

Saad tehnilise mustri teemal "MCP nullist" ning oskad hinnata riske, piire ja järgmist sammu.

Vaata järgmist

Agentide promptimine | Code w/ Claude

Saad tehnilise mustri teemal "MCP-tööriistade disainimine, mida LLM-id päriselt õigesti kasutavad" ning oskad hinnata riske, piire ja järgmist sammu.

Vaata järgmist

Seotud videod

Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings

How to Build Human-Centered AI Workflows in Localization with Shashi Bhushan

Hüppest harjumuseks: kuidas tehnoloogiaettevõtted skaleerivad AI-d eksperimendist kaugemale

Privaatne AI vs pilv: kuidas juhid saavad teha targemaid build-or-buy otsuseid

Mine sügavamale

Hoolikalt valitud välised kursused, mis aitavad sellesse teemasse sügavamalt minna.

Coursera · DeepLearning.AI

AI for Everyone

Kuus aastat pärast ilmumist endiselt parim lähtepunkt kõigile, kes peavad tehisintellektist aru saama ilma programmeerimist õppimata. Ei matemaatikat, ei žargooni, ei ülepaisutust — pärast lõpetamist oskad pidada tehisintellekti projektide üle teadlikku vestlust.

AI-ga alustaja~6 tundiKontrollitud 25 päeva tagasi

Coursera · The Wharton School

AI Strategy and Governance

Kartik Hosanagar · Kevin Werbach · Prasanna Tambe · Lynn Wu

Whartoni tugev raamistik juhtidele, kes peavad tegema ehita-või-osta otsuseid. Kursus ei müü tööriistu, vaid keskendub tehisintellekti kasutuse majandusele, algoritmilisele kallutatusele, andmeusaldusväärsusele ja juhtimistavadele, mis peavad auditile vastu.

Ekspert~10 tundiKontrollitud 25 päeva tagasi

Vaata kõiki kursusi teemal „AI ettevõttes”