Kuidas süsteemselt seadistada LLM evaluatsioone (mõõdikud, ühiktestid, LLM-as-a-Judge)

55 minutitEkspertAI ettevõttes

Dave Ebbelaar. Töötav AI-insener käib läbi oma tegelikku evaluatsiooni-redelit — assert-stiili ühiktestid, referentsi-vabad mõõdikud, LLM-as-judge inimestega joondamine ja analüüsi/mõõtmise/parandamise silmus. Struktuur on videos lähim vaste artikli argumendile, et evaluatsioonid on regressioone püüdev süsteem, mitte edetabel.

AI Experti märkus

Kontseptsioon on endiselt kasulik, kuid kontrolli näiteid praeguste tööriistadega enne päristöös kasutamist.

Mida sellest videost kaasa võtta

Saad tehnilise mustri teemal "Evaluatsioonide ehitamine, mis regressioone päriselt püüavad" ning oskad hinnata riske, piire ja järgmist sammu.

Mida enne vaadata või teada

Kasuks tuleb arusaam API-dest, automatsioonidest, RAG-ist või agentide tööpõhimõtetest.

Järgmisena vaata

Jätka sama õpiteekonda järgmiste hoolikalt valitud kaasvideotega.

Seotud videod

Mine sügavamale

Hoolikalt valitud välised kursused, mis aitavad sellesse teemasse sügavamalt minna.

Vaata kõiki kursusi teemal „AI ettevõttes”