Chain-of-thought, enesekriitika, tree-of-thoughts — millal kumba kasutada
Kolm arutlustehnikat, mis päriselt parandavad AI väljundit raskete probleemide juures — ja nende kasutamise kulu-tulu matemaatika. Konkreetsete prompttide, kõrvuti võrdluste ja moodsate arutlevate mudelite poolt sissetoodud lõksudega.
Prompt-inseneerias on kolm tehnikat, mis toodavad mõõdetavaid ja korratavaid parandusi raskete analüütiliste ülesannete juures: chain-of-thought, enesekriitika ja tree-of-thoughts. Neid on alates 2022–2023 arutluse uurimise lainest põhjalikult uuritud, ja vaatamata pühendatud arutlevate mudelite (o3, Claude Extended Thinking, DeepSeek R1) tõusule on tehnikad endiselt olulised — nii sellepärast, et need on kiirete mudelitega kasulikud, kui ka sellepärast, et need kujundavad seda, kuidas arutlevaid mudeleid endid promptida.
See artikkel on selle kohta, mida iga tehnika tähendab, millal kumba kasutada ja mis on kulu-tulu matemaatika.
Mis probleemi need lahendavad
Kõik kolm tehnikat tegelevad sama juurprobleemiga: keelemudeli vaikekäitumine on toota oma vastus ühe etteliikuva läbikäimisega, järeldusele varakult kohustudes, ilma selgesõnaliselt arutlemata. Lihtsate ülesannete jaoks on see okei ja tõhus. Mitmesammulise arutluse, keeruka analüüsi või millegi puhul, kus vastus sõltub mitme vahepealse asja õigesti tegemisest, toodab ühe käiguga vaikevariant enesekindlalt valesid väljundeid.
Tehnikad sunnivad mudelit kulutama enne kohustumist rohkem arvutusvõimsust vahepealsetele arutluskäikudele.
Chain-of-thought (CoT)
Algne ja lihtsaim. Lisa oma prompile fraas nagu "mõtle samm-sammult enne lõpliku vastuse andmist", ja mudel toodab enne järeldust oma arutluskäigu.
Töötatud näide. Võrdle:
Tavaline: Rong väljub Tallinnast kell 9.00 kiirusega 80 km/h. Teine rong väljub Tartust kell 9.30 Tallinna suunas kiirusega 100 km/h. Linnade vahemaa on 190 km. Mis kell nad kohtuvad?
ja:
CoT-ga: Sama küsimus. Mõtle samm-sammult. Kõigepealt arvuta vahemaa, mille esimene rong läbib enne teise väljumist. Seejärel pane paika võrrand kohtumise hetkeks. Näita oma arvutust, siis anna lõplik vastus.
Raskete aritmeetikataoliste probleemide puhul oli tavaliste GPT-3.5-klassi mudelite veamäär 30–50%; CoT-versioonide veamäär oli pigem 5–15%. Numbrid on mudelite paranedes muutunud, aga suund — CoT lisamine tõstab mitmesammuliste ülesannete täpsust — on põlvkondade lõikes püsinud järjekindel.
Millal kasutada chain-of-thoughti:
- Mitmesammuline aritmeetika, eriti ühikute, kuupäevade või täpse ümardamisega. Isegi tugevad mudelid komistavad nende peal.
- Loogikamõistatused ja sarnased probleemid, kus vastus on ahela järeldus.
- Koodi silumine, kus vastus sõltub oleku läbiajamisest.
- Strateegia analüüs, kus järeldus sõltub mitmest tegurist kaalumisest.
Millal mitte vaeva näha:
- Lihtne faktiline meeldetuletus. "Mis on Eesti pealinn?" ei vaja CoT-d.
- Genereerimisülesanded. Kirjutamine, kokkuvõtte tegemine, mustandi koostamine. CoT lisab ainult tokeneid kvaliteedi võiduta.
- Arutlevad mudelid. o3, Claude Extended Thinking, DeepSeek R1 teevad sisemiselt juba CoT-d — "mõtle samm-sammult" lisamine sinu prompti on parimal juhul üleliigne, halvimal kontraproduktiivne.
See viimane punkt on kriitiline ja me tuleme selle juurde tagasi.
Enesekriitika
Kahe läbikäimisega tehnika. Esmalt palu mudelil toota vastus. Seejärel palu mudelil oma vastust kritiseerida ja toota parandatud versioon.
Promptistruktuur:
Samm 1: [sinu algne küsimus]
>
Samm 2: Vaata oma ülaltoodud vastus üle. Leia kõik vead, nõrkused või kohad, kus tegid eeldusi, mis ei pruugi paika pidada. Ole oma töö suhtes karm kriitik.
>
Samm 3: Oma kriitika põhjal toota parandatud vastus.
Paranemine tuleb sellest, et mudel vabastatakse järelduse-juurde-kohustumusest, mille esimene läbikäimine tegi. Sunnitud oma tööd kriitiku pilguga vaatama, märkab ta asju, mida ta esimeses läbikäimises ei oleks märganud.
Keerukam variant on põhimõttepõhine / konstitutsiooniline enesekriitika. Defineerid hulga põhimõtteid, millele vastus peaks vastama, ja palud mudelil iga vastu hinnata.
Põhimõtted hea vastuse jaoks sellist tüüpi küsimusele: 1. See vastab tegelikule küsimusele, mitte selle üldistusele. 2. See tsiteerib konkreetseid tõendeid, mitte ei viipa allikate poole. 3. See tunnistab ebakindlust seal, kus see on, selgesõnaliselt. 4. See on kalibreeritud — enesekindel tugevatel punktidel, kõhklev nõrkadel.
>
Tooda vastus. Seejärel hinda seda iga põhimõtte vastu. Seejärel paranda.
See on tehnika, mille taga seisab Anthropicu Constitutional AI töö ja sarnased lähenemised tänapäeva alignment-uuringutes.
Millal kasutada enesekriitikat:
- Kirjutamisülesanded, kus tahad teist läbikäimist ilma vestlusest lahkumata.
- Analüütiline töö, kus mudel kipub üle-enesekindlaks muutuma.
- Otsustustugi, kus tahad, et mudel leiaks oma argumendis augud.
- Kood, kus tahad pärast genereerimisringi ülevaatusringi.
Millal mitte vaeva näha:
- Ülesanded, kus pole "õiget" vastust, mille suunas parandada (loominguline ajurünnak, ideede genereerimine).
- Ülesanded, kus eelistad kriitika ise teha (mistahes, kus sinu otsustusvõime on väärtus).
- Kiired vestluslikud vastused, kus latentsuse hind kaalub kvaliteedi võidu üles.
Tree-of-thoughts (ToT)
Kõige kallim tehnika. Ühe arutlusahela tootmise asemel kaalub mudel selgesõnaliselt mitut teed, hindab iga ja valib lootustandvama.
Töötatud näite struktuur:
Samm 1: Genereeri sellele probleemile kolm erinevat lähenemist.
>
Samm 2: Iga lähenemise juures käi läbi esimesed sammud ilma lõpliku vastuse juurde pühendumata.
>
Samm 3: Hinda, milline lähenemine kõige tõenäolisemalt õnnestub ja miks. Ole tugevuste ja nõrkuste osas konkreetne.
>
Samm 4: Pühendu parimale lähenemisele ja vii lahendus lõpuni.
Tree-of-thoughts töötab seetõttu, et mõnel probleemil on mitu usutavat lahendust ja esimene, mida proovid, pole alati parim. Paralleelse uurimise sundimisega väldid suboptimaalsesse teed kinnijäämist.
Praktiline näide — raske prompt:
Mul on keeruline SQL-päring, mis jookseb liiga aeglaselt. Aita see optimeerida.
>
Samm 1: Genereeri kolm erinevat optimeerimisstrateegiat. Samm 2: Iga juures määratle konkreetne kitsaskoht, millega see tegeleks, ja kulu. Samm 3: Hinda, milline annaks meile tõenäoliselt suurima võidu väikseima riskiga. Samm 4: Vii valitud lähenemine ellu.
Tagasi saad midagi märgatavalt läbimõeldumat kui "siin on üks ümberkirjutus." Kolm lähenemist, võrdlus, soovitus, elluviimine.
Millal kasutada tree-of-thoughtsi:
- Probleemid, millel on mitu usaldusväärset lahendust. Arhitektuuriotsused, algoritmivalikud, strateegilised valikud.
- Optimeerimisprobleemid. Kus esimene katse pole tihti parim.
- Loomingulised ülesanded, kus uurimine ongi mõte. Nimetamine, raamistamine, positsioneerimine.
- Kõik, kus kahtlustad, et ilmne vastus on vale.
Millal mitte vaeva näha:
- Ülesanded ühe õige lähenemisega. Ära küsi kolme SQL-päringut, kui üks töötab.
- Lihtsad faktiküsimused. Üledosa.
- Enamik arutlevate mudelite ülesandeid — mudelid teevad seda tüüpi uurimist nüüd sisemiselt.
Praktiline otsustuspuu
Kui sul on raske probleem ees, ei ole küsimus "kas peaksin CoT-d, enesekriitikat või ToT-d kasutama." Vaid "mis on selle probleemi kuju?"
- Lineaarne mitmesammuline probleem (aritmeetika, loogikamõistatus, range arutlus) → chain-of-thought.
- Probleem, kus üle-enesekindlus on risk (analüüs, soovitus, kood, mida tuleks üle vaadata) → enesekriitika.
- Probleem mitme usutava lähenemisega (optimeerimine, strateegiline valik, loominguline uurimine) → tree-of-thoughts.
- Vestluslik, lihtne või loominguline → ükski. Jäta lisapingutus tegemata.
Olemas on ka kasulik metamuster: kasuta CoT enesekriitika sees, mille sees on ToT. Uuri kolme teed (ToT), arutle igaüht samm-sammult (CoT), seejärel kritiseeri valitud teed (enesekriitika). See kõlab nagu üledosa, aga on raskeima analüütilise töö jaoks tõeliselt kasulik. Hind on latentsus ja tokenid; tasu on sisuliselt paremad vastused.
Kuidas arutlevad mudelid matemaatika muudavad
Suurim nihe alates 2024. aastast on olnud pühendatud arutlevate mudelite tõus — o1, o3, Claude Extended Thinking, DeepSeek R1, Gemini 2.5 Thinking. Need mudelid teevad chain-of-thoughti sisemiselt enne vastuse tootmist, mõeldes tihti kümneid sekundeid või minuteid.
See muudab nende promptimist kolmel olulisel viisil:
1. Lõpeta "mõtle samm-sammult" lisamine. Arutlevad mudelid teevad seda niikuinii. Selle fraasi selgesõnaline lisamine võib neid segadusse ajada või toota üleliigseid väljundeid. Esita lihtsalt küsimus otse.
2. Usalda mudeli arutluspikkust. Kui küsid keerulise küsimuse, genereerib mudel sisemiselt pika arutlusahela. Sa ei näe sellest kõike (osa on "thinking"-režiimis peidus). Kompromiss on latentsus. Ole kannatlik.
3. Kasuta lihtsaid, otseseid prompte. Arutlevad mudelid on vähem prompti-tundlikud kui kiired mudelid — nad arutlevad mitmetähenduslikkuse läbi, mitte ei jää sellesse kinni. Üleehitatud promptid, mis töötavad kiirete mudelitega hästi (raske raamistamine, mitu piirangut, struktureeritud mallid), halvendavad mõnikord arutleva mudeli väljundit. Proovi kõigepealt lihtsamat versiooni.
Töötatud näide. Võrdle neid kahte prompti arutlevale mudelile:
Prompt A: "Mõtle järgmise küsimuse üle samm-sammult. Esmalt määratle võtmepiirangud. Seejärel loetle valikud. Seejärel hinda iga valikut piirangute vastu. Seejärel vali. Näita oma arutluskäiku igal sammul. Küsimus: kas peaksime üle minema neljapäevasele töönädalale?"
Prompt B: "Kas peaksime üle minema neljapäevasele töönädalale? Kontekst: 80-pealine B2B SaaS, klienditoetiim töötab E–R."
Enamiku arutlevate mudelite jaoks toodab Prompt B parema vastuse. Arutlev mudel teab juba, kuidas küsimuse läbi mõelda; selgesõnaline tugiraamistik võib teda viisil piirata, mis kahjustab.
Kiirete mudelite jaoks on vastupidi. Nad vajavad võrreldava kvaliteedi tootmiseks tugiraamistikku.
See on alates 2023. aastast olulisim uus fakt prompt-inseneeria kohta: sama prompt, mis töötab kiirel mudelil kõige paremini, võib arutleva mudeli juures olla halvem, ja vastupidi.
Kulu-tulu matemaatika
Tehnikatel on kõigil kulud. Aus arvepidamine:
| Tehnika | Tokenikulu | Latentsuskulu | Kvaliteedivõit | Millal tasub | | --- | --- | --- | --- | --- | | Chain-of-thought | ~2–3x | ~1,5–2x | 10–40% rasketel probleemidel | Mitmesammulised probleemid kiirete mudelitega | | Enesekriitika | ~2x | ~2x | 5–20% üle laia | Kui üle-enesekindlus on päris risk | | Tree-of-thoughts | ~3–5x | ~2–3x | 10–30% mitme lähenemisega probleemidel | Rasked probleemid mitme teega | | Arutlev mudel (sisseehitatud) | ~3–10x | ~5–30x | 30–100% rasketel probleemidel | Kõik tõeliselt raske |
Enamiku juhusliku kasutuse jaoks on kiire mudel ilma tehnikateta okei. Raskete probleemide jaoks on õige tehnika (või arutlev mudel) lisakulu väärt. Triviaalsete ülesannete jaoks raiskavad kõik need tehnikad raha ja aega.
Praktiline reegel: enne, kui tehnika järele võtad, küsi, kas selle ülesande puhul valesti olemise hind on piisavalt sisukas, et tehnika lisakulu õigustada. Kui jah, kasuta õiget. Kui ei, saada prompt ära.
Töötatud näide: päris raske ülesanne
Oletame, et hindad kaht tarnijapakkumist ja tahad kalibreeritud võrdlust.
Ilma ühegi tehnikata (tavaline prompt):
Võrdle neid kaht tarnijapakkumist [kleebi]. Kumma me peaksime valima?
Saad kõhkleva, mõlema-poole-vastuse. Kasulik lähtepunkt; mitte piisav.
CoT-ga:
Võrdle neid kaht tarnijapakkumist. Mõtle samm-sammult: 1. Loetle kriteeriumid, mis meie otsuse jaoks olulised on. 2. Hinda iga tarnijat iga kriteeriumi alusel. 3. Tuvasta kriteeriumid, kus hinnangud kõige enam lahknevad. 4. Seejärel anna oma soovitus.
Saad palju struktureeritumat analüüsi. Iga samm on nähtav; saad kontrollida või parandada.
Enesekriitikaga peal:
[sama kui ülal]
>
Pärast oma soovitust kritiseeri oma analüüsi: 1. Milliseid kriteeriume võisin valesti kaaluda? 2. Mida eeldasin, mida ma ei oleks pidanud? 3. Mis on tugevaim usaldusväärne argument teise tarnija kasuks?
>
Seejärel toota vajaduse korral parandatud soovitus.
Kriitika tabab esimese analüüsi pimepunkte.
ToT-ga:
Võrdle neid kaht tarnijapakkumist.
>
Samm 1: Genereeri kolm erinevat otsustusraamistikku sellise valiku jaoks (nt riski minimeeriv, väärtust maksimeeriv, võimekusele vastav). Samm 2: Rakenda iga raamistikku. Saa kolm soovitust. Samm 3: Kus raamistikud nõustuvad? Kus lahknevad? Samm 4: Meie tegelike piirangute juures, milline raamistik on kõige sobivam? Lõplik soovitus.
Saad kolm erinevat nurka valikule; erinevused on koht, kus huvitav mõtlemine toimub.
Arutleva mudeliga:
Võrdle neid kaht tarnijapakkumist. Kumma me peaksime valima ja miks? Lisa asjad, mis sinu vastust muudaks.
Arutlev mudel teeb kõike ülaltoodut sisemiselt. Väljund on tihti võrreldav või parem kui rohkelt promptitud kiire-mudeli väljund, ligikaudu sama seinakella ajaga.
- aastal on tõeliselt raske analüütilise töö jaoks puhta prompiga arutlev mudel tavaliselt õige käik. CoT ja ToT jäävad kiirete mudelitega kasulikuks, ja enesekriitika jääb kasulikuks lisakihina, ükskõik milline on alumine mudel.
Mõned praktilised harjumused
Tee tehnika endale nähtavaks. Märgi prompi juures, millist tehnikat kasutasid — see aitab ehitada intuitsiooni, mis töötab.
Võrdle väljundeid. Kord nädalas jooksuta sama raske prompt tehnikaga ja ilma, ja vaata, kui erinevad need on. Kalibreerid kiiresti, millal tehnika oma kulu välja teenib.
Ära kuhja tehnikaid ilma mõtlemiseta. CoT + enesekriitika + ToT + arutlev mudel ühte virna kuhjamine on harva parem kui õige valimine. Iga kiht lisab kulu; lisa ainult kihte, mis sinu konkreetset ülesannet päriselt parandavad.
Hoia tehnikad oma teegis. Katked "CoT-ga", "enesekriitikaga", "ToT-ga" — rakendatud sellele, mis parajasti ülesanne on — säästavad päris aega võrreldes tugiraamistiku uuesti-trükkimisega.
Põhisõnum
Kolm tehnikat. Igal oma magushetk. Chain-of-thought lineaarsete mitmesammuliste probleemide jaoks. Enesekriitika üle-enesekindluse tabamiseks. Tree-of-thoughts mitme lähenemisega probleemide jaoks. Arutlevad mudelid muudavad matemaatika sellega, et teevad kahte esimest sisemiselt — aga tehnikad on endiselt olulised, nii kiirete mudelite jaoks kui ka mustritena, mida saad peale rakendada.
Kasuta probleemile õiget. Jäta vahele, kui need oma kulu välja ei teeni. Sisesta endasse vahe "raskema probleemi" ja "teistsuguse probleemi" vahel — see ongi kogu mäng.