Stanford CME295 Transformers & LLMs | sügis 2025 | loeng 8 - LLM-i hindamine
Stanford Online. Metoodiline läbikäik reeglipõhistest mõõdikutest, LLM-as-judge eelarvamustest, faktiline täpsus ja agentide hindamine ning staatiliste benchmarkide vigade režiimid. Kasuta seda teooria-kaaslasena artikli sektsioonile selle kohta, mida mõõta ja miks enamik valmis mõõdikuid päris regressioone alahindab.
AI Experti märkus
Kontseptsioon on endiselt kasulik, kuid kontrolli näiteid praeguste tööriistadega enne päristöös kasutamist.
Mida sellest videost kaasa võtta
Saad tehnilise mustri teemal "Evaluatsioonide ehitamine, mis regressioone päriselt püüavad" ning oskad hinnata riske, piire ja järgmist sammu.
Mida enne vaadata või teada
Kasuks tuleb arusaam API-dest, automatsioonidest, RAG-ist või agentide tööpõhimõtetest.
Järgmisena vaata
Jätka sama õpiteekonda järgmiste hoolikalt valitud kaasvideotega.
Seotud videod
Mine sügavamale
Hoolikalt valitud välised kursused, mis aitavad sellesse teemasse sügavamalt minna.






