# LLM-i turbeülevaatuse kontroll-leht

Kasuta seda enne LLM-funktsiooni avaldamist, kui töövoog loeb ebausaldusväärset sisu, otsib privaatseid andmeid või kutsub tööriistu.

## 1. Töövoo piir

- [ ] Töövoogul on nimetatud omanik.
- [ ] Töövoo lubatud tegevused on dokumenteeritud.
- [ ] Välised, pöördumatud, rahalised, õiguslikud, personaliga seotud või kliendile nähtavad tegevused on eraldi märgitud.
- [ ] Töövoo kiireks väljalülitamiseks on dokumenteeritud viis.
- [ ] Töövoogul on tagasipööramise või käsitsi asendamise tee.

## 2. Ebausaldusväärse sisendi inventuur

- [ ] Kasutaja otsest sisendit käsitletakse ebausaldusväärsena.
- [ ] Otsitud dokumente käsitletakse andmetena, mitte juhistena.
- [ ] Tööriistade väljundeid käsitletakse ebausaldusväärsena, kui need ei teki usaldatud piiri sees.
- [ ] Üles laaditud PDF-e, pilte, heli, arvutustabeleid ja transkripte käsitletakse ebausaldusväärsena.
- [ ] Veebilehti ja brauseriagendi tähelepanekuid käsitletakse ebausaldusväärsena.
- [ ] Administraatori muudetavad promptid, töövoomallid, CMS-i sisu ja teadmiste allikad vaadatakse enne tootmiskasutust üle.

## 3. Andmete ja otsingu piir

- [ ] Saladusi, pääsmeid, tooreid tokeneid ja privaatseid URL-e ei saadeta mudelile.
- [ ] Otsing filtreerib enne järjestamist tenant'i, kasutaja, rolli ja allikaõiguste järgi.
- [ ] Otsitud tükkidel säilivad allika ID, tenant'i ID, nähtavus, omanik, versioon ja ülevaatuse aeg.
- [ ] Vastuse teekond saab tsiteerida või logida kasutatud allika ID-sid.
- [ ] Aegunud, üle vaatamata või madala usaldusega allikad jäetakse välja või märgitakse.
- [ ] Logides varjatakse isikuandmed ja pääsmed.

## 4. Prompti ja konteksti leping

- [ ] Süsteemi- ja arendajajuhised on versioonitud ning üle vaadatud nagu kood.
- [ ] Ebausaldusväärne sisu on pakendatud ja märgistatud andmetena.
- [ ] Mudelile on öeldud, mida teha, kui ebausaldusväärne sisu läheb ülesande juhistega vastuollu.
- [ ] Mudel saab ainult ülesandeks vajaliku minimaalse konteksti.
- [ ] Kõrge riskiga töövood kasutavad kitsast ekstraktimise sammu enne, kui põhiagent sisu näeb.
- [ ] Prompti kontrollfraase kasutatakse tuvastamiseks, mitte peamise kaitsekihina.

## 5. Tööriistad ja tegevused

- [ ] Tööriistad on kitsad ja ülesandespetsiifilised.
- [ ] Tööriistad võtavad kasutaja, tenant'i ja rolli serveripoolsest autentimiskontekstist, mitte mudeli argumentidest.
- [ ] Iga tööriist valideerib argumendid skeemi ja ärireeglitega.
- [ ] Iga tööriist jõustab autoriseerimise mudelist sõltumatult.
- [ ] Kirjutavad tööriistad on võimaluse korral idempotentsed.
- [ ] Välised kõrvalmõjud vajavad inimese kinnitust või deterministlikku poliitikakontrolli.
- [ ] Kiiruspiirangud, kvoodid ja kulupiirangud on seadistatud.
- [ ] Tööriistakutsed logitakse koos kasutaja, tenant'i, töövoo, promptiversiooni, mudeli, argumentide kokkuvõtte ja tulemusega.

## 6. Väljundi valideerimine

- [ ] Mudeli väljund parsitakse enne kasutamist range skeemiga.
- [ ] Tundmatud väljad lükatakse tagasi, kui leping peab olema suletud.
- [ ] URL-id, Markdown, HTML, failinimed ja koodiplokid puhastatakse seal, kus see on asjakohane.
- [ ] Väljund ei tohi sisaldada andmeklasse väljaspool ülesande lubatud ulatust.
- [ ] Privaatsetel allikatel põhinevad faktivastused vajavad allika ID-sid või allikakatkendeid.
- [ ] Vigane väljund ebaõnnestub suletult ega lange vabateksti peale tagasi.

## 7. Regressioonitestid

- [ ] Otsene süstetest: kasutaja palub mudelil juhiseid ignoreerida.
- [ ] Kaudne süstetest: otsitud sisu palub mudelil andmeid paljastada või tööriista kutsuda.
- [ ] Tenant'ite vaheline test: päring proovib ligi pääseda teise tenant'i andmetele.
- [ ] Ohtliku tööriistakutse test: mudel küsib kättesaamatut või keelatud tegevust.
- [ ] Vigase väljundi test: lisaväljad või valed enum-väärtused lükatakse tagasi.
- [ ] Andmelekketest: väljund proovib sisaldada saladusi, privaatseid andmeid või promptiteksti.
- [ ] Püsivustest: salvestatud sisu sisaldab pahatahtlikke juhiseid, mis hiljem otsinguga tagasi tulevad.
- [ ] Mitmemodaalne test, kui asjakohane: OCR-is või pildil nähtavaid juhiseid käsitletakse ebausaldusväärsena.

## 8. Jälgimine ja intsidentidele reageerimine

- [ ] Prompti väljavõtmise katsed on tuvastatavad.
- [ ] Korduvad valideerimisvead tekitavad häire.
- [ ] Ebatavaline otsingu ulatus, tööriistakutsete hulk, välised adressaadid, kulu või päringusagedus tekitavad häire.
- [ ] Prompt injection'i katsed on seotavad kasutaja, tenant'i, töövoo, allika ID-de ja tööriistakutsetega.
- [ ] Tiim teab, kuidas töövoog või üksikud tööriistad välja lülitada.
- [ ] Tiim teab, kuidas teenusepakkuja võtmeid tühistada ja mõjutatud pääsmeid roteerida.
- [ ] Kliendi, õigus-, turbe- ja regulaatorite teavitamise otsustel on omanik.

## Käivitusvärav

Ära märgi töövoogu tootmisvalmiks enne, kui:

- [ ] Kõigil suure mõjuga tegevustel on värav.
- [ ] Vähemalt üks vaenuliku dokumendi test on läbitud.
- [ ] Vähemalt üks lubamatu ligipääsu katse ebaõnnestus ohutult.
- [ ] Vähemalt üks ohtliku tööriistakutse katse ebaõnnestus ohutult.
- [ ] Vähemalt üks vigase väljundi test ebaõnnestus suletult.
- [ ] Vähemalt üks töövoo väljalülitamise tee on läbi proovitud.
