Iseendal hostitud vs hostitud järeldus: vLLM, TGI ja tasuvuspiiri matemaatika
Millise mastaabi juures võidab iseendal hostimine API-kõnesid? Tegelik matemaatika, operatiivsed reaalsused ja mustrid, mis eristavad tiime, kes peaksid ise hostima, neist, kes peaksid hallatud järelduse eest edasi maksma.
Lubadus on veenev. Avatud lähtekoodiga mudelid on konkurentsivõimelised. GPU-d on saadaval. Järeldusserverid nagu vLLM, TGI ja SGLang on küpsed. Miks maksta 5–10x marginaaliga OpenAI-le või Anthropicule, kui sa võiksid samaväärset ise hostida?
Reaalsus on keerulisem. Iseendal hostimine võidab tõeliselt teatud mastaapidel. Teistel kääbustab operatiivkulu järelduse säästu. Tasuvuspiir varieerub töökoormuse, mudeli suuruse, latentsuse nõuete ja tiimi võimekuse järgi.
See artikkel läheb sügavale matemaatikasse, operatiivsetesse reaalsustesse ja mustritesse, mis eristavad tiime, kes peaksid ise hostima, neist, kes ei peaks. Eeldame, et sa kaalud seda tõsiselt ja tahad ausaid numbreid.
Millal iseendal hostimisel on mõte
Mõned omadused, mis soosivad iseendal hostimist:
Mastaap. Suur järelduse maht. Konkreetselt, igakuised järelduskulud API-del, mis ületavad 5K–10K €, õigustavad tüüpiliselt iseendal hostimise kaalumist.
Ennustatav töökoormus. Stabiilne, ennustatav kasutus. Iseendal hostimine nõuab võimsuse planeerimist; tipuvahelised töökoormused raiskavad võimsust (alakasutus) või ebaõnnestuvad (üleküllastus).
Privaatsuse / vastavuse nõuded. Andmed, mida ei saa pilve pakkujatele saata (reguleeritud tööstused, teatud valitsuse lepingud, ainult sisekasutuseks olevad andmed).
Kohandatud mudelid. Peenhäälestused, kohandatud arhitektuurid või spetsialiseeritud variandid, mida hallatud pakkujad ei paku.
Latentsuse kontroll. Mõnele rakendusele on alla 100ms esimese tokeni latentsus võimalik vaid sinu kontrollitud infrastruktuuril.
Kulu kõne kohta tasuvuspiirist allpool. Kui sa teed matemaatika ja iseendal hostimine tõeliselt võidab.
Kui enamik neist on tõsi, on iseendal hostimine tõsiseks kaalumiseks väärt.
Millal iseendal hostimisel ei ole mõtet
Teine pool. Omadused, mis soosivad hallatud API-sid:
Madal või muutuv mastaap. Järelduskulud alla 5K €/kuus. Sääst ei õigusta operatiivkulu.
Tipuvahelised töökoormused. Kasutus, mis varieerub tipust ja vaikseks ajaks 10x. Iseendal hostimine raiskab võimsust orgudes.
Vaja eesliinivõimekusi. GPT-5, Claude 4 Opus, viimased arutlusmudelid — need on suletud ja saadaval ainult API-de kaudu. Kui sinu töökoormus vajab tõeliselt eesliini kvaliteeti, sa maksad API-de eest.
Väike tiim. Iseendal hostitud järeldus nõuab operatiivset ekspertiisi. Ilma pühendatud võimekuseta asjad lähevad katki.
Kiire iteratsioon. Paljude erinevate mudelite, konfiguratsioonide, pakkujate proovimine. API-d teevad selle lihtsaks; iseendal hostimine muudab iga muudatuse juurutamiseks.
Mitmeregioonilised / globaalsed kasutajad. Iseendal hostimine nõuab tegutsemist igas regioonis. Hallatud API-d käsitlevad seda.
Nende juhtumite jaoks on hallatud API-d õige vastus, isegi märkimisväärse kulu juures.
Kuluarvutus (hoolikalt)
Teeme esindusliku juhtumi jaoks tegelikud numbrid. Eeldused:
- Töökoormus: 100 miljonit sisenditokenit/kuus, 30 miljonit väljunditokenit/kuus.
- Kvaliteedi sihtmärk: võrreldav Claude 4 Sonnet või GPT-5-ga.
- Saadaval avatud mudel: Llama 4 70B (kvaliteet on paljudele ülesannetele lipulaeva suletud mudelile lähedal).
Variant A: API suletud mudelile.
- Lipulaeva suletud API: umbes 3 €/M sisend × 100M = 300 €. 15 €/M väljund × 30M = 450 €. Kokku: ~750 €/kuus.
See kulutase ei õigusta iseendal hostimist.
Suurendame töökoormuse 10x:
- 1 miljard sisenditokenit, 300 miljonit väljunditokenit.
- Suletud API: 7500 €/kuus.
Nüüd muutub iseendal hostimine huvitavaks.
Variant B: API avatud mudelile hallatud avatud lähtekoodiga pakkujal.
- Llama 4 70B Together AI-l: ~0,50 €/M sisend, 0,80 €/M väljund.
- 1B sisend × 0,50 €/M = 500 €. 300M väljund × 0,80 €/M = 240 €. Kokku: 740 €/kuus.
90% sääst vs suletud. Märkimisväärne.
Variant C: iseendal hostitud renditud GPU-del.
- Llama 4 70B vajab mõistliku läbilaskevõime jaoks ~2 H100-t (kvantiseerimisega).
- Renditud H100-d: 2–3 €/tund tükk.
- 2 H100 × 2,50 €/tund × 730 tundi/kuus = 3650 €/kuus ainult arvutusvõimsuse eest.
- Lisaks: salvestamine, võrgustamine, opsi aeg.
Selle töökoormuse jaoks võidab avatud-lähtekoodiga-hallatud-pakkuja iseendal hostimist puhta kulu järgi. Iseendal hostimine võidab ainult siis, kui sul on vaja ka kontrolli (privaatsus, kohandatud mudel) või sinu läbilaskevõime on palju suurem.
Variant D: iseendal hostitud omanduses olevatel/pikaajaliselt reserveeritud GPU-del.
- 2 ostetud või pikaajaliselt reserveeritud H100-t: 1–2 €/tund efektiivselt.
- 2 H100 × 1,50 €/tund × 730 tundi = 2190 €/kuus.
- Kõrgem kasutus saab kulu hajutada: kui need GPU-d käsitlevad mitut töökoormust, on töökoormuse kohane kulu madalam.
Nüüd oleme konkurentsivõimelised hallatud avatud lähtekoodiga pakkujatega. Aga operatiivne lisakulu on reaalne.
Võtmeleid: selle töökoormuse mastaabis (~10B tokenit/kuus) on iseendal hostimise sääst hallatud avatud lähtekoodiga pakkujate vastu marginaalne. Sääst vs suletud API-d on dramaatiline, kuid hallatud avatud lähtekoodiga püüab enamiku sellest.
10x sellest töökoormusest (100B+ tokenit/kuus) hakkab iseendal hostimine selgelt võitma. 10x väiksema juures on hostitud vastus.
Operatiivkulu
Lisaks puhtale järelduskulule, iseendal hostimise operatiivkulu.
Algne seadistus:
- Õige järeldusserveri valimine (vLLM, TGI, SGLang).
- Konfigureerimine oma mudeli ja riistvara jaoks.
- GPU infrastruktuuri seadistamine (pilv või omanduses).
- Võrgustamine, turvalisus, vaadeldavus.
- Kvantiseerimine ja optimeerimine.
Tüüpiline: 1–4 inseneri-nädalat esimeseks juurutamiseks.
Pidev tegevus:
- Seire (latentsus, läbilaskevõime, vead, GPU kasutus).
- Võimsuse planeerimine.
- Uuendused (uued mudelite versioonid, järeldusserveri uuendused, turvaplaastrid).
- Vahejuhtumitele reageerimine (GPU rikked, OOM-kokkujooksmised, tarkvarabuugid).
- Skaleerimine (rohkem GPU-sid, kui koormus kasvab).
Tüüpiline: 0,25–1 inseneri FTE pidevalt, sõltuvalt mastaabist.
Peidetud kulud:
- GPU hinnavolatiilsus.
- Pilve väljaminekukulud, kui hübriidne.
- Eriekspertiis (CUDA, kvantiseerimine, optimeerimine).
- Asenduse / rikete kulud omanduses olevale riistvarale.
Täielikult koormatud 100K–200K € inseneri/aasta juures on isegi osaaja inseneeria tähelepanu märkimisväärne. 5K €/kuus järelduskulu sääst kaob 15K €/kuus inseneeria kulu alla.
See on koht, kus tiimid alahindavad iseendal hostimise kulu. Järelduse matemaatika näeb isolatsioonis suurepärane välja; omanduse kogukulu on palju kõrgem.
Järeldusserverid
Kui sa kavatsed ise hostida, on peamised valikud:
vLLM. Avatud lähtekoodiga. Tõenäoliselt kõige populaarsem avatud lähtekoodiga LLM-ide serveerimiseks. PagedAttention, pidev partiitustöötlus, lai mudelitugi. Vaikevalik.
TGI (Text Generation Inference). Hugging Face'i server. Küps, lai mudelitugi, hea jõudlus. Viimasel ajal vähem kiire funktsioonide areng kui vLLM-il.
SGLang. Uuem, väga kõrge jõudlusega. Tugev struktureeritud genereerimise jaoks. Aktiivne arendamine.
LMDeploy. InternLM-i tiimilt. Tugev kvantiseerimine, kiire.
llama.cpp / Ollama. Väiksemate mudelite, madalama läbilaskevõime jaoks. CPU-sõbralik. Mõne kasutusjuhtumi jaoks toodangukõlblik.
Hugging Face TGI Inference Endpoints. Hallatud iseendal hostimine. Maksa tunni eest instantside eest; HF tegutseb nendega. Vahepealne täielikult iseendal hostitu ja hallatu vahel.
Modal, RunPod, Replicate. Funktsioon-teenusena järelduse jaoks. Madalam pühendumus kui täielik iseendal hostimine; kõrgem kulu kui DIY.
Enamikule tiimidele: vLLM või SGLang toodangu iseendal hostimiseks. Mõlemad on küpsed, kiired, hästi dokumenteeritud.
Riistvara valikud
GPU küsimus:
NVIDIA H100. Praegune järelduse tipptase. Renditult ~2–3 €/tund. Annab sulle 80GB VRAM-i, kiire järelduse. 70B mudelid jooksevad hästi ühel H100-l kvantiseerimisega või 2x ilma.
NVIDIA H200. H100 järglane, rohkem VRAM-i (141GB). Väga suurte mudelite jaoks.
NVIDIA L40S. Ligipääsetavam, ~1–2 €/tund. Hea mõõdukate suurusega mudelite jaoks (kuni ~30B kvantiseerimisega).
NVIDIA A100. Eelmine põlvkond, endiselt laialdaselt saadaval. ~1–2 €/tund. Tööhobune paljudele toodangu juurutustele.
AMD MI300X. Mõne töökoormuse jaoks konkurentsivõimeline H100-ga. Järjest enam saadaval. Mõni tarkvara on NVIDIA virnaga võrreldes ebaküps.
Apple M-seeria. Väga väikeste mudelite jaoks (alla 8B) töötab Mac Studio või Mac Pro ühtse mäluga. Nišikasutusjuhtum.
Enamiku 2026. aasta toodangu iseendal hostimise jaoks: H100 või H200, kui vajad suuri mudeleid; L40S või A100 mõõdukate jaoks.
Renditallikad: AWS, GCP, Azure (peavool), Lambda Labs, Runpod, Together, Vast.ai (eriala). Hinnastamine varieerub. Spot-/preemptible-instantsid võivad säästa 50–70%, kui talud katkestust.
Kvantiseerimine
Enamik toodangu iseendal hostitud juurutusi kasutab kvantiseeritud mudeleid. Kompromissid:
FP16 (16-bitine). Vaikimisi täpsus. Täielik kvaliteet. Kõige rohkem mälunäljane.
INT8 / FP8 (8-bitine). Pooldab mälu, väike kvaliteedikadu. Tavaline toodangu valik.
INT4 (4-bitine). Veerand mälu, märgatavam kvaliteedikadu, kuid endiselt kasulik. Agressiivne valik.
AWQ, GPTQ, GGUF. Erinevad kvantiseerimise vormingud erinevate kompromissidega.
70B mudeli jaoks:
- FP16: 140GB VRAM.
- INT8: 70GB VRAM.
- INT4: 35GB VRAM.
H100-l on 80GB VRAM. INT8 mahub mugavalt; FP16 vajab 2 GPU-d.
Kvaliteedimõju:
- INT8: tavaliselt <1% degradeerumine võrdlustestide peal.
- INT4: 1–5% degradeerumine, varieerub ülesande järgi.
Testi enne juurutamist oma töökoormuse peal. Mõned ülesanded (eriti struktureeritud/kood) on kvantiseerimisele tundlikumad kui teised.
Läbilaskevõime ja võimsuse planeerimine
Võtme planeerimisküsimus: mitu tokenit sekundis sul vaja on?
Üksikpäringu läbilaskevõime.
- 70B mudel H100-l, INT8: ~50–80 tokenit sekundis ühele kasutajale.
Partiitatud läbilaskevõime.
- Mitu samaaegset päringut: 1000–3000 tokenit sekundis kokku üle päringute (vLLM hea partiitustööga).
Latentsuse kaalutlused.
- Esimese tokeni latentsus: tüüpiliselt 100–500ms.
- Tokeni kohane latentsus: 10–30ms.
Võimsuse planeerimiseks:
- Hinda samaaegsete päringute tippu.
- Hinda keskmist päringu pikkust.
- Arvuta vajalik kogu tokenite sekundis.
- Lisa 50% reservi.
Tiim, mis käsitleb 1M tokenit tunnis 50 samaaegse tipu-kasutajaga, vajab tüüpiliselt 2–4 H100-t heas kasutuses.
Usaldusväärsus ja varuvariant
Iseendal hostimine tähendab, et omad usaldusväärsust.
Tervisekontrollid. Pidev tervise seire. Taaskäivita ebatervislikud instantsid.
Sujuv degradeerumine. Kui võimsus on küllastunud, eelista aeglaseid vastuseid ebaõnnestumistele.
Varuvariant API-dele. Paljud tiimid hostivad esmast liiklust ise ja kukuvad ülekoormuse korral hallatud API-de peale tagasi. Mõlema maailma parim; keerukus on reaalne.
Varuriistvara. GPU-d ebaõnnestuvad. Hoia varuvõimsust valmis.
Mitmeregiooniline. Globaalsete kasutajate jaoks replikeeri. Või kasuta kaugemate regioonide jaoks hallatud API-sid.
Uuendusstrateegia. Uued mudelite versioonid, serveri uuendused. Sinine-roheline juurutamine, et vältida tööseisakut.
Iga neist on inseneritöö, mille hallatud API-d sulle endasse imevad.
Tööproovne näide: tiimi iseendal hostimise otsus
Päris näide. SaaS-i tiim, AI-funktsioonid, igakuine järelduskulu hallatud API-del: 18 000 €.
Matemaatika:
- 80% järeldusest on klassifikatsioon ja ekstraktimine (saaks jooksutada väiksemal avatud mudelil).
- 20% on keerukas genereerimine (vajab eesliini suletud).
Plaan:
- Hosti Llama 4 70B ise 80% töökoormuse jaoks.
- Hoia Claude/GPT API 20% jaoks.
- 3 H100-t Lambda Labs reserveeritud: ~4500 €/kuus.
- Inseneeria seadistus: 4 nädalat, 25K € ühekordne.
- Pidev ops: 0,25 FTE inseneri, ~30K €/aasta.
Tulemus 6 kuu pärast:
- Järelduskulu langes 18K €/kuus-lt 6K €/kuus-ni (4,5K € iseendal hostitud + 1,5K € suletud API raskete ülesannete jaoks).
- Netosääst vs vana: 12K €/kuus = 144K €/aasta.
- Inseneeriainvesteering: 25K € + 30K € = 55K €/aasta.
- Neto rahaline kasu: ~89K €/aasta.
Peidetud keerukused:
- Üks tööseisak, kui juurutamisel oli konfiguratsioonibuug. 2-tunnine osaline degradeerumine.
- Mitu nädalat pidevat häälestust, et saada optimaalne läbilaskevõime.
- Iseendal hostimist tegev insener soovinuks teha midagi muud.
Tulemus: rahaliselt positiivne, kuid operatiivselt raskem kui oodatud. Tiim jätkab iseendal hostimist; kui maht langeks 50%, läheksid nad hallatud peale tagasi.
Selline näeb välja päris edukas iseendal hostimise otsus. Mitte maagia — inseneritöö mõõdetava ROI-ga.
Tööproovne näide: tiimi „tagasi API-dele" otsus
Teine tiim, sarnane alguspunkt.
Originaalne seadistus: Iseendal hostitud Llama 3 70B renditud GPU-del. Järelduskulu: 3K €/kuus rent. Pluss inseneeria ~20K €/aasta pidevalt.
Muudatus:
- Avatud-lähtekoodiga-hallatud-pakkuja hinnastamine langes 50% 18 kuu jooksul.
- Nende tiim kasvas, kuid ei palganud pühendatud MLOps-i.
- Iseendal hostimise seadistus vajas suurt tööd, et uute mudelitega sammu pidada.
Otsus:
- Lõpeta iseendal hostimine.
- Liigu Together AI hostitud avatud mudelitele.
- Kulu: 2,5K €/kuus hallatud avatud jaoks. Väike sääst, madalam keerukus.
- Vabasta insener.
Tulemus:
- Tagasihoidlik rahaline sääst.
- Inseneri aeg vabanenud tootetöö jaoks.
- Vähem operatiivset stressi.
Tulemus: õige otsus neile. Iseendal hostimine võidab mõnele tiimile; teistele mitte.
Millal otsust üle vaadata
Otsus pole püsiv. Vaata perioodiliselt üle:
Mahu muutused. Märkimisväärselt üles: iseendal hostimine atraktiivsem. Märkimisväärselt alla: vähem atraktiivne.
Hinnamuutused. Suletud API-d odavnevad või kallinevad. Hallatud avatu odavneb. Riistvara odavneb.
Mudelite paranemised. Uued avatud lähtekoodiga mudelid, mis vastavad suletud kvaliteedile. Uued suletud mudelid, mis lähevad eemale.
Operatiivvõimekus. Tiim kasvas või kahanes ML/ops võimekuses.
Privaatsuse / vastavuse muutused. Uued nõuded, mis nõuavad iseendal hostimist.
Kvartali ülevaade on mõistlik. Mitte pidev ümberhindamine, aga ka mitte „otsustatud korra".
Tavalised vead
Mustrid, mida me näeme iseendal hostimise otsustes:
Viga 1: kuluarvutus ilma operatiivkuluta. „Iseendal hostimine säästab 10K €/kuus" — kuid ignoreerib 15K €/kuus inseneeriat. Negatiivne ROI.
Viga 2: liiga vara iseendal hostida. Inseneeria pingutuse kulutamine iseendal hostimisele, kui töökoormus on väike. Optimeerimine enneaegne.
Viga 3: eesliini-kvaliteedi iseendal hostimine väikeste avatud mudelitega. „Saame raha säästa väiksemat mudelit kasutades" — kuid kvaliteet langeb, kasutajad kurdavad. Kukub tagasi API-dele.
Viga 4: varuvarianti pole. Iseendal hostitud infrastruktuur kukub maha; sujuvat degradeerumist pole. Tööseisak, kui API-klientidel poleks olnud.
Viga 5: optimeerimisse alainvesteerimine. 70B mudeli jooksutamine ühel GPU-l 5 tokenit/s, kui korralik seadistus annab 50. Suurema osa väärtusest visatakse minema.
Viga 6: kvaliteeditriivi ignoreerimine. Iseendal hostitud mudel on degradeerunud vs praegune suletud. Kliendid märkavad; tiim ei märka.
Viga 7: mitte uuesti kaaluda. Korra iseendal hostides, ei vaata enam üle. Otsus võis olla õige kaks aastat tagasi ja vale nüüd.
Viga 8: spot-/preemptible ilma sujuva käsitlemiseta. Säästis 60% arvutusvõimsuselt; tööseisakud paari tunni tagant, kui instantsid taastatakse.
Otsustusekontrollnimekiri
Otsuse tahtlikuks tegemiseks:
- [ ] Järelduskulud API-del on vähemalt 5–10K €/kuus?
- [ ] Töökoormus on stabiilne ja ennustatav?
- [ ] Tiimil on või saab palgata MLOps/järelduse ekspertiisi?
- [ ] Avatud lähtekoodiga mudel on olemas piisava kvaliteediga?
- [ ] Latentsuse nõuded on iseendal hostimisega ühilduvad?
- [ ] Oled teinud detailse kuluarvutuse, kaasa arvatud operatiivkulud?
- [ ] Sul on varuplaan?
- [ ] Vastavuse/privaatsuse nõuded ei nõua ühte teed?
- [ ] Kas vaatad kvartali tagant üle?
Kui enamik on jah, on iseendal hostimine tõsiselt kaaluda väärt.
Hübriidmustrid
See pole kõik-või-mitte-midagi. Paljud tiimid jooksevad hübriidselt:
Iseendal hostitud massi jaoks; API-d raskete juhtumite jaoks. Klassifikatsioon, lihtne genereerimine iseendal hostitud; keerukas arutlus suletud API-del.
Iseendal hostitud stabiilse jaoks; API-d tippude jaoks. Iseendal hostitud käsitleb põhikoormust; API-d neelavad tipud.
Iseendal hostitud tundliku jaoks; API-d üldise jaoks. Tundlikud andmed läbi iseendal hostitud; üldised päringud läbi API-de.
Iseendal hostitud peenhäälestuste jaoks; API-d baasi jaoks. Kohandatud mudelid jooksevad sa ise; karbist mudelid API-delt.
Hübriid lisab keerukust, kuid püüab sageli mõlema parimad. Mastaabis tiimide jaoks on hübriid sageli õige vastus.
Kokkuvõte
LLM-i järelduse iseendal hostimine on 2026. aastal tõeliselt elujõuline. Avatud lähtekoodiga mudelid on konkurentsivõimelised. Järeldusserverid on küpsed. Riistvara on saadaval.
Aga operatiivkulu on reaalne ja seda on lihtne alahinnata. Tasuvuspiir hallatud API-de vastu on umbes 5–10K €/kuus järelduskulu; selle all inseneeriainvesteering ei tasu end ära.
Tiimid, kes hostivad edukalt ise:
- On teinud matemaatika ausalt, kaasa arvatud operatiivkulud.
- Omavad või saavad ehitada MLOps võimekust.
- Jooksevad piisavas mastaabis, et õigustada investeeringut.
- Omavad stabiilseid töökoormusi.
- Ei vaja eesliini-ainult võimekusi.
- Planeerivad usaldusväärsust, seiret ja uuendusi.
Tiimid, kes peaksid jääma API-dele:
- Madalam mastaap.
- Tipuvahelised töökoormused.
- Vaja kiiret iteratsiooni.
- Väikesed tiimid ilma operatiivvõimekuseta.
- Vaja eesliini-suletud võimekusi.
Õige vastus on sinu olukorrale spetsiifiline. Tee numbrid hoolikalt. Hinda ausalt oma operatiivvõimekust. Vaikimisi vali API-d, kui iseendal hostimine selgelt ei võida.
Kui iseendal hostimine võidab, võidab see suurelt — majanduslikult ja arhitektuuriliselt. Kui ei, on see kallis viis avastada, et hallatud API-d olid kogu aeg õige valik.