Kuidas süsteemselt seadistada LLM evaluatsioone (mõõdikud, ühiktestid, LLM-as-a-Judge)

55 minutitEkspertAI ettevõttes

Dave Ebbelaar. Töötav AI-insener käib läbi oma tegelikku evaluatsiooni-redelit — assert-stiili ühiktestid, referentsi-vabad mõõdikud, LLM-as-judge inimestega joondamine ja analüüsi/mõõtmise/parandamise silmus. Struktuur on videos lähim vaste artikli argumendile, et evaluatsioonid on regressioone püüdev süsteem, mitte edetabel.

AI Experti märkus

Kontseptsioon on endiselt kasulik, kuid kontrolli näiteid praeguste tööriistadega enne päristöös kasutamist.

Mida sellest videost kaasa võtta

Saad tehnilise mustri teemal "Evaluatsioonide ehitamine, mis regressioone päriselt püüavad" ning oskad hinnata riske, piire ja järgmist sammu.

Mida enne vaadata või teada

Kasuks tuleb arusaam API-dest, automatsioonidest, RAG-ist või agentide tööpõhimõtetest.

Järgmisena vaata

Jätka sama õpiteekonda järgmiste hoolikalt valitud kaasvideotega.

LLM-ide instrumenteerimine ja hindamine

Saad tehnilise mustri teemal "Observability LLM-rakendustele" ning oskad hinnata riske, piire ja järgmist sammu.

Vaata järgmist

Agentide ehitamine Model Context Protocoliga - täistöötuba Anthropicu Mahesh Muragiga

Saad tehnilise mustri teemal "MCP nullist" ning oskad hinnata riske, piire ja järgmist sammu.

Vaata järgmist

Agentide promptimine | Code w/ Claude

Saad tehnilise mustri teemal "MCP-tööriistade disainimine, mida LLM-id päriselt õigesti kasutavad" ning oskad hinnata riske, piire ja järgmist sammu.

Vaata järgmist

Seotud videod

Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings

How to Build Human-Centered AI Workflows in Localization with Shashi Bhushan

Hüppest harjumuseks: kuidas tehnoloogiaettevõtted skaleerivad AI-d eksperimendist kaugemale

Privaatne AI vs pilv: kuidas juhid saavad teha targemaid build-or-buy otsuseid

Mine sügavamale

Hoolikalt valitud välised kursused, mis aitavad sellesse teemasse sügavamalt minna.

Coursera · DeepLearning.AI

AI for Everyone

Kuus aastat pärast ilmumist endiselt parim lähtepunkt kõigile, kes peavad tehisintellektist aru saama ilma programmeerimist õppimata. Ei matemaatikat, ei žargooni, ei ülepaisutust — pärast lõpetamist oskad pidada tehisintellekti projektide üle teadlikku vestlust.

AI-ga alustaja~6 tundiKontrollitud 25 päeva tagasi

Coursera · The Wharton School

AI Strategy and Governance

Kartik Hosanagar · Kevin Werbach · Prasanna Tambe · Lynn Wu

Whartoni tugev raamistik juhtidele, kes peavad tegema ehita-või-osta otsuseid. Kursus ei müü tööriistu, vaid keskendub tehisintellekti kasutuse majandusele, algoritmilisele kallutatusele, andmeusaldusväärsusele ja juhtimistavadele, mis peavad auditile vastu.

Ekspert~10 tundiKontrollitud 25 päeva tagasi

Vaata kõiki kursusi teemal „AI ettevõttes”