Ekspert13 min lugemistAI ettevõttes

Hindamiste ehitamine, mis tegelikult regressioone kinni püüavad

Enamik hindamiskomplekte näeb muljetavaldav välja, kuid jätab päris regressioonid vahele. Hindamiste ehitamine, mis püüab kinni seda, mis loeb, nõuab hoolikat andmestiku ehitamist, tundlikke mõõdikuid, kohtuniku kalibreerimist ja usaldusekultuuri. Mustrid meeskondadelt, kes seda õigesti teevad.

Mida oskad pärast teha

Ehitad eval-komplekti, mis püüab regressioonid kinni enne tootmist ja eristab kvaliteedi, ohutuse ning ärireeglite ebaõnnestumisi.

15. mai 2026

Selles artiklis

Ehitasid hindamiskomplekti. See läbib. Sa juurutad. Kasutajad kaebavad kohe regressioonide üle, mida sinu hindamine kinni ei püüdnud.

See on üks levinumaid — ja kõige demoraliseerivamaid — mustreid tootmise LLM-töös. Hindamiskomplektid, mis näevad muljetavaldavad välja, aga jätavad vahele regressioonid, mis loevad. Need annavad valekindlust. Meeskond usaldab neid, tarnib muudatusi, mis kahjustavad kvaliteeti, ja avastab probleemi alles siis, kui kasutajad selle välja toovad.

Hindamiste ehitamine, mis tegelikult regressioone kinni püüab, on raskem, kui paistab. Põhitõed (andmestik, oodatud väljundid, skoorimine) on lihtsad. Nende usaldusväärseks signaaliks tegemine on see, kus töö on.

See artikkel käsitleb, mida oleme õppinud hindamiste ehitamisest, mis püsima jäävad — meeskondadele, kes võtavad tootmise AI kvaliteeti tõsiselt.

Mida head hindamised teevad

Hea hindamiskomplekt, kui jooksutatakse kandidaatmuudatuse vastu, annab sulle kõrge kindlusega vastuse: "kas see muudatus on parem, halvem või sama kui praegune versioon?"

Kontrastid:

Püüab regressioone. Kui kvaliteet langeb reaalse maailma mustritel, langeb hindamisskoor.
Tuvastab parandused. Kui kvaliteet paraneb, peegeldab skoor seda (mitte ainult kirsskorjatud juhtumitel).
Stabiilne mittemuudatustel. Kui midagi pole sisuliselt muutunud, on skoor järjepidev.
Usaldatav otsuste tegemiseks. Hindamisskooride põhjal tehtud otsused korreleerivad tegelike kasutajate tulemustega.

Iga neist on raskem, kui kõlab.

Andmestikuprobleem

Sinu hindamine on ainult nii hea kui sinu andmestik. Enamik ebaõnnestuvaid hindamiskomplekte ebaõnnestub siin.

Levinud andmestiku ebaõnnestumised

Ebaõnnestumine 1: Kirsskorjatud lihtsad juhtumid. Andmestik koostati, kui süsteem töötas, sageli insenerile, kes selle ehitas. Nad valisid juhtumid, mis "olid mõistlikud" — selged näited igast käitumisest. Päris tootmisliiklus on sasipundar. Rasked juhtumid, ebamäärased juhtumid, servapuhud domineerivad ebaõnnestumistes, aga on andmestikus alaesindatud.

Ebaõnnestumine 2: Vananenud andmestik. Andmestik ehitati kuus kuud tagasi. Sellest ajast on kasutajakäitumine nihkunud, uued funktsioonialad avatud, uued toote-võimekused välja antud. Andmestik testib maailma vana versiooni.

Ebaõnnestumine 3: Regressioonialdiste alade katte puudumine. Hindamine katab "õnneliku tee" põhjalikult, aga ei sondi piirjooni, kus regressioonid tegelikult juhtuvad.

Ebaõnnestumine 4: Andmestiku saastumine. Hindamises kasutatud näited ilmuvad ka promptis või peenhäälestusandmetes. Mudel "mäletab" neid. Testitulemused on paisutatud; päris jõudlus on halvem.

Ebaõnnestumine 5: Tasakaalustamata jaotus. 80% andmestikust on üht tüüpi sisend; 5% on pikk saba. Regressioon pikas sabas vaevalt liigutab skoori, isegi kui see on päris regressioon.

Tugeva andmestiku ehitamine

Paar põhimõtet, mis toodavad tugevaid andmestikke:

Hangi päris tootmisliiklusest. Parimad näited on päris kasutajasisendid (PII eemaldatud). Need sisaldavad tegelikku sasipuntra, mida sinu süsteem peab käsitlema.

Praktiline töövoog:

Püüa kinni tootmiskõnede valim (asjakohase privaatsuse kontrolliga).
Märgista oodatavad väljundid käsitsi (või LLM-i märgistamine, siis inimkontroll).
Lisa juhtum hindamisandmestikku.
Värskenda andmestikku regulaarselt (igakuine on hea kadents).

Kaasa mitmekesised rikkemoodid. Kaasa konkreetselt juhtumid, mis on varem tootmises ebaõnnestunud. Need muutuvad regressioonitestideks — kui parandad vea, lisad ebaõnnestuva juhtumi, et see jääks parandatuks.

Kihistada andmestik. Kategoriseeri juhtumid (lihtsad/keskmised/rasked, teema kaupa, kasutajatüübi kaupa, pikkuse kaupa). Veendu, et igal kategoorial on sisukas kate. Jälgi skoore kategooria kaupa, mitte ainult üldist.

Sega raskused. Mõned lihtsad juhtumid (et saaksid katastroofilisi regressioone tuvastada). Mõned keskmised (päris liikluse põhihulk). Mõned rasked (servapuhud). Andmestik ainult rasketest juhtumitest nihkub väikeste muudatuste korral metsikult; andmestik ainult lihtsatest ei liigu päris regressioonide korral.

Kohane suurus. Liiga väike ja sinu statistika on mürarikas. Liiga suur ja jooksud muutuvad aeglaseks ja kalliks. Tüüpilised suurused:

Klassifikatsioon: 200–500 juhtumit.
Genereerimine: 50–200 juhtumit.
Keerukad agendivood: 20–50 juhtumit.

Saad alati alustada väiksemast ja kasvada.

Värskendamisdistsipliin. Planeeri andmestiku igakuine ülevaatus. Lisa uusi rikkemoode. Pensione vananenud juhtumid. Uuenda oodatud väljundeid, kui soovitud käitumine on muutunud.

Mõõdikuprobleem

Mida sa mõõdad, määrab, mida sa optimeerid. Halbade mõõdikute valimine on hindamise teine kõige levinum ebaõnnestumine.

Levinud mõõdiku ebaõnnestumised

Ebaõnnestumine 1: Ühe numbri kokkuvõtted peidavad probleeme. Üldine täpsus 90% juures võib peita, et üks oluline kategooria langes 95%-lt 70%-le, samal ajal kui teised paranesid. Keskmine näeb hea välja.

Parandus: per-kategooria jaotused. Alati.

Ebaõnnestumine 2: Mõõdik mõõdab valet asja. "Õigsuse" mõõdik klienditoe vastustel võib jätta vahele, et vastus on õige, aga ebaviisakas. Mõõdik ei haara tooni.

Parandus: mitmemõõtmeline skoorimine. Õigsus + toon + pikkus + vorming eraldi.

Ebaõnnestumine 3: Tundetus tõsiduse suhtes. Vale vastust käsitletakse samamoodi, kas see on triviaalne viga või ohtlik hallutsinatsioon.

Parandus: kaalutud skoorimine. Tõsised vead loevad rohkem. Mõned vead loevad 0-na (ohutusrikkumised); mõned -1-na (katastroofilised ebaõnnestumised, halvemad kui mitte midagi).

Ebaõnnestumine 4: Bimodaalne tundlikkus. Skoor läheb kas 100%-lt 99%-le (mittetajutav) või 100%-lt 50%-le (katastroofiline). Peenkesi regressioone ei näe.

Parandus: astmeline skoorimine. Iga väljund skooritakse pidevskaalal (1–5 või 0–1), mitte binaarselt.

Ebaõnnestumine 5: Populatsioonide vahel agregeerimine. Keskmine kõigi kasutajate vahel peidab, et jõudlus 10% alagrupi puhul kukkus.

Parandus: dimensionaalsed jaotused asjakohaste viilude kaupa (kasutajatase, päringutüüp, lokaal).

Tugevate mõõdikute ehitamine

Mitmemõõtmeline. Iga väljund saab mitu skoori. Õigsus. Toon. Vorming. Ohutus. Pikkus. Mis iganes loeb.

Kaalutud. Mõned dimensioonid loevad rohkem kui teised. Kaalu need igas komposiitmõõdikus.

Kalibreeritud tõsidused. Ühe dimensiooni sees eralda väiksed vead suurtest. Faktiliselt vale vastus on halvem kui veidi kõrvale jääv vastus.

Per-kategooria mõõdikud. Teata skoore jaotatuna asjakohaste viilude kaupa. Lihtsad/keskmised/rasked. Teema kaupa. Kasutajatüübi kaupa.

Trend ajas. Üks skoor pole kasulik; trend on. Joonista skoorid ajas. Tuvasta triiv.

Kasutajaga joondatud. Mõõdikud peaksid korreleeruma sellega, mida kasutajad tegelikult hoolivad. Kui kasutajad kaebavad ebaviisakuse üle, mõõdad ebaviisakust. Kui kasutajad kaebavad pikkuse üle, mõõdad pikkust.

Kohtunikuprobleem

LLM-kohtuniku kasutamisel (LLM skoorib teise LLM-i väljundit) on kohtunik sinu skooritud. Kui kohtunik on kallutatud või vale, on su hindamised kasutud.

Levinud kohtuniku ebaõnnestumised

Ebaõnnestumine 1: Pikkuse kallutatus. LLM-kohtunikud kalduvad eelistama pikemaid vastuseid. Nad skoorivad pikemat vastust kõrgemalt isegi siis, kui see on paisutatud.

Ebaõnnestumine 2: Vormingu kallutatus. Kohtunikud eelistavad struktureeritud väljundeid (täpid, pealkirjad) proosale, sõltumata sellest, mis on ülesande jaoks parem.

Ebaõnnestumine 3: Enese-eelistamine. Kui kohtunikumudel on samast perekonnast kui hinnatav mudel, skoorib see oma perekonna väljundeid kõrgemalt.

Ebaõnnestumine 4: Süsofantsus. Kohtunikud nõustuvad mis tahes raamistusega, mis neile antakse. Kui ütled kohtunikule "eelmine versioon oli halb, skoori uus versioon", põhjustab see paisutatud uusi skoore.

Ebaõnnestumine 5: Maandamise puudumine. Kohtunikud skoorivad muljete põhjal, mitte konkreetsete kriteeriumide. Sama prompt, erinev skoorimine erinevatel jooksudel.

Tugevate kohtunike ehitamine

Kalibreeri inimeste vastu. Võta valim kohtunikuskoore; lase inimesel uuesti skoorida. Kus nad ei nõustu, täpsusta kohtunikuprompti või aktsepteeri, et inimesi on selle dimensiooni jaoks vaja.

Kasuta erinevaid kohtunikumudeleid. Kui võimalik, kasuta kohtunikku teisest mudeliperest kui hinnatav süsteem. Vähendab enese-eelistamist.

Ole kriteeriumide kohta selgesõnaline. Kohtuniku prompt peaks täpselt määratlema, mis on hea ja mis halb, koos näidetega. Ebamäärased kriteeriumid toodavad ebamäärast skoorimist.

Väldi suunavaid raamistusi. Ära ütle kohtunikule "skoori seda skaalal, kus enamik väljundeid on head". Ankurda konkreetsetel käitumistel.

Ankurdatud rubriigid. Skoori määratletud rubriigi järgi koos näidetega iga taseme jaoks. "Skoor 5: faktiliselt täpne, konkreetne, hästi struktureeritud. Skoor 4: enamasti täpne, võib puududa üks detail. Skoor 3: ..." Ankrutega on kohtunik järjepidev. Ilma triivib.

Sundi struktureeritud väljundit. Kohtunik toodab struktureeritud skoore (dimensiooni kohta, koos põhjendusega), mitte vabavormi teksti. Lihtsam agregeerida ja auditeerida.

Tugev kohtuniku prompt näeb välja nii:

You are evaluating an AI assistant's response.

User query: {query}
Assistant response: {response}

Score on the following dimensions, on a scale of 1-5:

1. Factual accuracy: Are all claims correct? (5 = all correct, 4 = mostly correct with minor issues, 3 = some incorrect, 2 = many incorrect, 1 = mostly wrong)

2. Relevance: Does the response address the user's actual question? (5 = perfectly addresses, 1 = doesn't address)

3. Completeness: Does the response contain enough information? (5 = complete, 1 = severely incomplete)

4. Tone: Is the response appropriately professional? (5 = perfect tone, 1 = inappropriate)

For each score, provide:
- The score
- A one-sentence specific reason
- The specific text in the response that supports your score

Output JSON: {"accuracy": {"score": N, "reason": "...", "evidence": "..."}, ...}

Jookseta see kohtunik kalibreerimiskomplekti vastu (inim-skooritud näited). Reguleeri, kuni kohtunik nõustub inimestega aktsepteeritavas piires.

Tootmise hindamiskomplektide kavandamine

Paar mustrit, mis tootmises töötavad:

Komplekt 1: Regressioonikomplekt

Määratletud testjuhtumite hulk (200–500), mida süsteem peab läbima enne mistahes juurutust. Kureeritud päris ebaõnnestumistest, servapuhkudest ja teadaolevatest headest mustritest. Ei muutu sageli.

See on sinu "ei tohi katki minna" komplekt. CI-integratsioon: iga PR jookseb selle. Blokeeri merge regressioonil.

Komplekt 2: Suitsutest

Väike alamhulk (10–30 juhtumit), mis jookseb sageli. Kiire tagasiside arendamise ajal. Püüab katastroofilisi regressioone koheselt.

Integratsioon: pre-commit hook või kiire suitsutest enne põhihinnangut.

Komplekt 3: Avastuskomplekt

Suurem, mitmekesisem andmestik (1000-d juhtumeid) päris tootmisliiklusest valimiks võetud. Jookseb harvem (iganädalaselt?). Otsib mustreid, mida väiksemad komplektid võivad vahele jätta.

Integratsioon: planeeritud töö. Tulemused vaadatakse iganädalastel kvaliteedikoosolekutel.

Komplekt 4: Online-komplekt

Päris tootmisliikluse valim, skooritud automaatselt (LLM-kohtunik) või kasutaja signaalide kaudu. Püüab triivi, mida võrguvälised hindamised vahele jätavad.

Integratsioon: pidev, juhtpaneelipõhine.

Komplekt 5: Kasutaja-voo komplekt

Otsast-otsani testid, mis treenivad terveid kasutajavooge, mitte ainult üksikuid LLM-kõnesid. Agendisüsteemide ja mitmesammuliste töövoogude jaoks.

Integratsioon: oluliste muudatuste eel.

Küps tootmissüsteem omab kõiki viit. Alusta regressioonikomplektist; lisa teisi, kui võimekus kasvab.

Kulu- ja ajadistsipliin

Hindamised maksavad raha (LLM-kõned) ja aega (nende jooksutamine, ülevaatamine).

500-juhtumiline hindamine lipulaeva kohtunikuga võib maksta 5–20 € jooksu kohta. Jookseta seda igal PR-il (10/päevas) ja oled 50–200 €/päevas. Hallatav, aga reaalne.

Strateegiad:

Jookseta suitsuteste PR-il; jookseta täiskomplekte merge'il. Säästab kulu PR-idel, mis ei mergei.

Vahemällu salvesta tulemusi. Kui ei prompt ega mudel pole muutunud, pole vaja uuesti jooksutada. Vahemällu (prompt_version, model, dataset_version) kaupa.

Kasuta odavamaid kohtunikke, kus võimalik. Odavam kohtunikumudel hea kalibreerimisega on sageli aktsepteeritav.

Paralleeli. Hindamisjooksud on häbiväärselt paralleelsed. Kasuta samaaegsust.

Tee valim, mitte täiskäik. Rutiinsete kontrollide jaoks võta 500-juhtumilisest andmestikust 50 juhtumit. Täiskäik oluliste muudatuste jaoks.

Aja jaoks on eelarve tavaliselt "kui kaua võib PR oodata?". Sihi täishinnang <15 minuti jooksul. Sellest kaugemal arendajad kontekstilülituvad ja kaotavad tootlikkuse.

Operatiivsed mustrid

Paar praktikat, mis eristavad küpseid hindamisprogramme:

Muster 1: Hindamise-gateeritud juurutused

Tootmise juurutused LLM-i mõjutavate muudatuste puhul on hindamistulemustele värav. Skoor regresseerus alla läve? Juurutus blokeerub. Insener uurib.

Lävi on tavaliselt suhteline: "skoor peab olema 2% piires baasväärtusest". Lubab müra, aga püüab sisulisi regressioone.

Muster 2: Uurimine, kui skoorid liiguvad

Iga sisulist skoori liikumist (üles või alla) uuritakse. Skoor läks üles? Miks? Kas parandasime või muutus test lihtsamaks? Skoor läks alla? Kus täpselt? Kas regressioon on piiratud ühe viiluga?

Ära tähista ega paanitse koondliikumistele; uuri.

Muster 3: Pidev andmestiku kureerimine

Andmestik pole ühekordne ehitus. Seda kureeritakse pidevalt. Protsess:

Kasutaja kaebab vastuse üle → lisa andmestikku regressioonitestina.
Uus funktsioon tarnib → lisa seda katvad juhtumid.
Mudeli käitumine üllatab kedagi → kui see on päris ebaõnnestumine, lisa.
Vananenud juhtumid (enam pole asjakohased): pensione.

Igakuine ülevaatusekoosolek töötab hästi. Andmestikku käsitletakse elava varana.

Muster 4: Diffi-põhine ülevaatus

Hindamistulemuste ülevaatamisel keskendu diffidele baasväärtusest:

Juhtumid, kus uus versioon skooris kõrgemalt kui baasväärtus (parandused).
Juhtumid, kus uus versioon skooris madalamalt (regressioonid).
Juhtumid, kus skoor jäi samaks (pole signaali).

Diff on signaal. 500 juhtumi lineaarne ülevaatus on ebapraktiline; 30 diffi ülevaatamine on teostatav.

Muster 5: Inimülevaatus kohtuniku lahkarvamustele

Perioodiliselt (iganädalaselt?) võta valim juhtumitest, kus kohtunik andis madala ja kõrge skoori. Inimülevaatus kontrollib: kas nõustud kohtunikuga?

Lahkarvamused paljastavad:

Kohtuniku kallutatusi (kalibreeri kohtunikuprompti).
Päris kvaliteediprobleeme (paranda süsteem).
Andmestikuprobleeme (juhtumi oodatud väljund on vale).

Nii hoiad kohtuniku kvaliteeti üle aja.

Muster 6: Kvartali hindamisülevaatus

Kvartali tagasivaade hindamisprogrammile endale:

Milliseid päris regressioone hindamiskomplekt sel kvartalil kinni püüdis?
Milliseid päris regressioone jättis vahele?
Milliseid valehäireid tootis?
Millised katelüngad meil teadaolevalt on?
Milline on andmestiku kate praeguste tootmiskäitumiste suhtes?

See on meta-hindamine: hindamise hindamine. Ilma selleta hindamisprogramm halveneb.

Töötatud näide: klienditoe hindamine

Et seda konkreetseks teha, siin on tootmiskvaliteediga hindamisseadistus AI klienditoe vastussüsteemile.

Eesmärk: tagada, et AI vastused klientide päringutele on täpsed, abivalmid, brändile vastavad ja ohutud.

Andmestikud:

Regressioonikomplekt (300 juhtumit): - 50 lihtsat juhtumit (selged poliitikad, lihtsad vastused). - 100 keskmist juhtumit (tüüpiline keerukus). - 100 rasket juhtumit (ebamäärased, tundlikud, mitmeosalised). - 50 teadaolevalt ebaõnnestumise juhtumit (varem regresseerunud stsenaariumid).

Avastuskomplekt (1000 juhtumit): Valitud igakuiselt päris tootmisliiklusest, PII-puhastatud.

Adversariaalne komplekt (50 juhtumit): Spetsiaalselt loodud promptid, mis üritavad infot välja võtta, saada tagasimakseid mittesobivate juhtumite eest, AI-d manipuleerida.

Mõõdikud:

Iga juhtumi puhul kohtunik skoorib:

Faktiline täpsus (1–5)
Poliitika vastavus (1–5)
Tooni sobivus (1–5)
Täielikkus (1–5)
Pikkuse sobivus (1–5)
Ohutus (binaarne: läbib/ebaõnnestub)

Kohtunikud:

Esmane kohtunik: Claude (erinev pakkuja testitavast süsteemist, mis kasutab GPT-d — erineva pakkuja valimine väldib sama mudeli enese-eelistamise kallutatust).
Kalibreeritud inimülevaataja vastu 100 viitejuhtumil.
Uuesti kalibreerimine kvartalipõhiselt.

Agregeerimine:

Keskmine skoor dimensiooni kohta viilu kohta (viilud: piletitüüp, klienditase, keel).
Ohutuse läbimismäär (peab olema 100%).
Per-juhtumi kaalutud skoor (kasutatud diffide jaoks).

Operatsioonid:

Suitsutest (30 juhtumit) igal PR-il.
Täis regressioonikomplekt (300 juhtumit) PR-i merge'imisel.
Avastuskomplekt (1000 juhtumit) iganädalaselt.
Adversariaalne komplekt (50 juhtumit) enne mistahes prompti või mudeli muutust.
Online-valim 1% tootmisliiklusest, kohtustatud reaalajas.

Ülevaatus:

Igakuine koosolek: vaata hindamistrende, uusi rikkemoode, andmestikuuuendusi.
Kvartali koosolek: meta-hindamine, kohtuniku kalibreerimine, andmestiku audit.

Tulemused (sarnaste süsteemide päris juurutustest):

~3 regressioonipüüki kuus, mis oleksid ilma hindamisteta tarninud.
~1 valehäire kuus (hindamine märgib regressiooni, mis on tegelikult korras).
Triiv tuvastatud päevadega, mitte nädalate/kuudega.
Kindlustunne prompti ja mudeli muudatuste tarnimisel kasvas.

Selline näeb välja tootmiskvaliteediga hindamine. Mitte kiire nädalavahetuse projekt; pidev investeering päris ROI-ga.

Levinud lõksud

Paar mustrit, mida näeme korduvalt:

Lõks 1: Hindamiste ehitamine pärast toote tarnimist. "Me lisame hindamised hiljem." Hiljem ei tule kunagi. Ehita need esimesest päevast.

Lõks 2: Üksiku inseneri omandiõigus. Üks inimene ehitab hindamise; keegi teine ei hoolda seda. Kui ta lahkub, hindamine mädaneb. Levita omandiõigus.

Lõks 3: Hindamiste käsitlemine staatilisena. Ehitatud üks kord, kunagi ei uuendatud. Muutub kasutuks, kui toode areneb. Käsitle hindamist elava varana.

Lõks 4: Hindamisskooride pimesi usaldamine. Hindamine ütles, et see on parem, niisiis tarni. Ilma inimliku pisteliste kontrollideta tarnid asju, mida hindamine kõrgelt hindas, aga mida kasutajad vihkavad. Paari hindamisi inimülevaatusega oluliste muudatuste puhul.

Lõks 5: Hindamisele optimeerimine. Promptide häälestamine konkreetselt hindamise hästi skoorimiseks. Hindamine paraneb; reaalsus ei. Vaata seda välja — kui hindamise parandused ei ühti tootmise parandustega, optimeerid testile.

Lõks 6: Infrastruktuurikulude ignoreerimine. Hindamised mastaabis on kallid (LLM-kõned kuhjuvad). Ilma kulu jälgimiseta saad teada kuu lõpus.

Lõks 7: Pole selgeid läbi/ebaõnnestumise kriteeriume. "Skoor läks 4,2-lt 4,0-le — kas see on regressioon?" Määratle läved eelnevalt. Jää nende juurde.

Lõks 8: Hindamiskomplekt domineerib testimisenergial. Keerukate hindamiste ehitamine, kui põhilised õigsustestid puuduvad. Hindamised on kvaliteeditriivi jaoks; mitte kogu testimine ei ole hindamised.

Kultuuriline osa

Tootmise hindamiste raskeim osa on kultuuriline. Insenerid ja tootejuhid peavad:

Usaldama hindamisi piisavalt, et juurutusi neile värav panna. Ilma selleta on hindamised teater.
Hindamisi piisavalt mitte usaldama, et liikumisi uurida. Pime usaldus viib testile optimeerimiseni.
Investeerima andmestiku kureerimisse jätkuva tööna. Mitte ühekordne projekt.
Aktsepteerima, et hindamised ei asenda inimotsust. Need vähendavad pinda, mida inimesed peavad üle vaatama.
Ära tunda, kui hindamiskomplekt ei tööta. Kui päris regressioonid libisevad läbi, on hindamiskomplekt probleem, mitte kaebav kasutaja.

Meeskonnad, kellel on see kultuur, tarnivad kiiremini ja usaldusväärsemalt. Meeskonnad, kellel pole, lõpetavad lõpuks kas katkiste hindamiste üleliialdase usaldusega või nende puudumisest halvatuna.

Põhipoint

Hindamiste ehitamine, mis tegelikult regressioone kinni püüab, on raskem, kui paistab, aga teostatav.

Võtmed:

Päris, mitmekesised andmestikud, mis on hangitud tootmisreaalsusest.
Mitmemõõtmelised, viiluteadlikud mõõdikud, mis joonduvad kasutajakogemusega.
Kalibreeritud kohtunikud, mida oled tegelikult inimotsuse vastu kontrollinud.
Mitu hindamiskomplekti erinevatele muredele (regressioon, suits, avastus, online, otsast-otsani).
Operatiivne distsipliin: hindamise-gateeritud juurutused, pidev andmestiku kureerimine, liikumiste uurimine.
Kultuuriline pühendumus hindamiste kasutamisele ja parandamisele aja jooksul.

Hästi tehtuna muutuvad hindamised sinu AI-tehnoloogiavirna kõige väärtuslikumaks infrastruktuuriks. Nendega tarnid kiiresti, kvaliteeti säilitades. Ilma nendeta lendad pimedalt.

Ehita hindamised. Usalda hindamisi. Paranda hindamisi. Nii tootmise AI kvaliteet säilib.

Järgmisena loe

Jätka sama õpiteekonda järgmiste praktiliste artiklitega.

Vaadeldavus LLM-rakendustes: trace'imine, kulud, latentsus, kvaliteeditriiv

Määrad LLM-rakendusele jälgitavuse: logid, trace'id, hindamised, kulud, kasutajakogemus ja häired nii, et probleeme saab uurida.

Loe järgmist

MCP nullist: ehita TypeScriptis tootmiskõlblik server

Ehitad lihtsa MCP-serveri ning mõistad, kuidas ressursid, tööriistad ja autentimine LLM-i töövooga turvaliselt ühenduvad.

Loe järgmist

MCP tööriistade kujundamine, mida LLM-id tegelikult õigesti kasutavad

Disainid MCP-tööriistu nii, et mudel kasutab neid õigesti: kitsad skeemid, selged vead, vähimad õigused ja testitav käitumine.

Loe järgmist

Mine sügavamale

Hoolikalt valitud välised kursused, mis aitavad sellesse teemasse sügavamalt minna.

Coursera · DeepLearning.AI

AI for Everyone

Andrew Ng

Kuus aastat pärast ilmumist endiselt parim lähtepunkt kõigile, kes peavad tehisintellektist aru saama ilma programmeerimist õppimata. Ei matemaatikat, ei žargooni, ei ülepaisutust — pärast lõpetamist oskad pidada tehisintellekti projektide üle teadlikku vestlust.

AI-ga alustaja~6 tundiKontrollitud 25 päeva tagasi

Coursera · The Wharton School

AI Strategy and Governance

Kartik Hosanagar · Kevin Werbach · Prasanna Tambe · Lynn Wu

Whartoni tugev raamistik juhtidele, kes peavad tegema ehita-või-osta otsuseid. Kursus ei müü tööriistu, vaid keskendub tehisintellekti kasutuse majandusele, algoritmilisele kallutatusele, andmeusaldusväärsusele ja juhtimistavadele, mis peavad auditile vastu.

Ekspert~10 tundiKontrollitud 25 päeva tagasi

Vaata kõiki kursusi teemal „AI ettevõttes”