Ise hostitud vs hallatud inferents: vLLM, TGI ja tasuvuspiiri matemaatika
Ekspert11 min lugemistPrivaatne ja lokaalne AI

Ise hostitud vs hallatud inferents: vLLM, TGI ja tasuvuspiiri matemaatika

Millise mastaabi juures võidab ise hostimine API-kõnesid? Tegelik matemaatika, operatiivsed reaalsused ja mustrid, mis eristavad tiime, kes peaksid ise hostima, neist, kes peaksid hallatud inferentsi eest edasi maksma.

Mida oskad pärast teha

Arvutad, millal ise hostitud inferents võib hallatud API-dest parem olla, ja hindad realistlikult operatsioonilist koormust.

AI Expert TeamAvaldatud: 15. mai 2026
Salvestatakse ainult selles brauseris.
Selles artiklis

Lubadus on veenev. Avatud lähtekoodiga mudelid on konkurentsivõimelised. GPU-d on saadaval. Inferentsserverid nagu vLLM, TGI ja SGLang on küpsed. Miks maksta 5–10x marginaaliga OpenAI-le või Anthropicule, kui sa võiksid samaväärset ise hostida?

Reaalsus on keerulisem. Ise hostimine võidab tõeliselt teatud mastaapidel. Teistel kääbustab operatiivkulu inferentsisäästu. Tasuvuspiir varieerub töökoormuse, mudeli suuruse, latentsuse nõuete ja tiimi võimekuse järgi.

See artikkel läheb sügavale matemaatikasse, operatiivsetesse reaalsustesse ja mustritesse, mis eristavad tiime, kes peaksid ise hostima, neist, kes ei peaks. Eeldame, et sa kaalud seda tõsiselt ja tahad ausaid numbreid.

Millal ise hostimisel on mõte

Mõned omadused, mis soosivad ise hostimist:

Mastaap. Suur inferentsimaht. Konkreetselt, igakuised inferentsikulud API-del, mis ületavad 5K–10K €, õigustavad tüüpiliselt ise hostimise kaalumist.

Ennustatav töökoormus. Stabiilne, ennustatav kasutus. Ise hostimine nõuab võimsuse planeerimist; tipuvahelised töökoormused raiskavad võimsust (alakasutus) või ebaõnnestuvad (üleküllastus).

Privaatsuse / vastavuse nõuded. Andmed, mida ei saa pilve pakkujatele saata (reguleeritud tööstused, teatud valitsuse lepingud, ainult sisekasutuseks olevad andmed).

Kohandatud mudelid. Peenhäälestused, kohandatud arhitektuurid või spetsialiseeritud variandid, mida hallatud pakkujad ei paku.

Latentsuse kontroll. Mõnele rakendusele on alla 100ms esimese tokeni latentsus võimalik vaid sinu kontrollitud infrastruktuuril.

Kulu kõne kohta tasuvuspiirist allpool. Kui sa teed matemaatika ja ise hostimine tõeliselt võidab.

Kui enamik neist on tõsi, on ise hostimine tõsiseks kaalumiseks väärt.

Millal ise hostimisel ei ole mõtet

Teine pool. Omadused, mis soosivad hallatud API-sid:

Madal või muutuv mastaap. Inferentskulud alla 5K €/kuus. Sääst ei õigusta operatiivkulu.

Tipuvahelised töökoormused. Kasutus, mis varieerub tipust ja vaikseks ajaks 10x. Ise hostimine raiskab võimsust orgudes.

Vaja eesliinivõimekusi. Uusimad suletud tipp- ja arutlusmudelid on saadaval ainult API-de kaudu. Kui sinu töökoormus vajab tõeliselt eesliini kvaliteeti, sa maksad API-de eest.

Väike tiim. Ise hostitud inferents nõuab operatiivset ekspertiisi. Ilma pühendatud võimekuseta asjad lähevad katki.

Kiire iteratsioon. Paljude erinevate mudelite, konfiguratsioonide, pakkujate proovimine. API-d teevad selle lihtsaks; ise hostimine muudab iga muudatuse eraldi juurutustööks.

Mitmeregioonilised / globaalsed kasutajad. Ise hostimine nõuab tegutsemist igas regioonis. Hallatud API-d käsitlevad seda.

Nende juhtumite jaoks on hallatud API-d õige vastus, isegi märkimisväärse kulu juures.

Kuluarvutus (hoolikalt)

Teeme esindusliku juhtumi jaoks tegelikud numbrid. Eeldused:

  • Töökoormus: 100 miljonit sisenditokenit/kuus, 30 miljonit väljunditokenit/kuus.
  • Kvaliteedi sihtmärk: võrreldav tugeva suletud lipulaevamudeliga.
  • Saadaval avatud mudel: tänapäevane avatud 70B-klassi mudel, kui eval’id näitavad piisavat kvaliteeti.

Variant A: API suletud mudelile.

  • Lipulaeva suletud API: umbes 3 €/M sisend × 100M = 300 €. 15 €/M väljund × 30M = 450 €. Kokku: ~750 €/kuus.

See kulutase ei õigusta ise hostimist.

Suurendame töökoormuse 10x:

  • 1 miljard sisenditokenit, 300 miljonit väljunditokenit.
  • Suletud API: 7500 €/kuus.

Nüüd muutub ise hostimine huvitavaks.

Variant B: API avatud mudelile hallatud avatud mudelite pakkujal.

  • Hallatud avatud 70B-klassi mudel: ~0,50 €/M sisend, 0,80 €/M väljund.
  • 1B sisend × 0,50 €/M = 500 €. 300M väljund × 0,80 €/M = 240 €. Kokku: 740 €/kuus.

90% sääst vs suletud. Märkimisväärne.

Variant C: ise hostitud renditud GPU-del.

  • Suur avatud mudel võib mõistliku läbilaskevõime jaoks vajada mitut tugevat GPU-d, sõltuvalt kvantiseerimisest ja latentsuse nõudest.
  • Renditud H100-d: 2–3 €/tund tükk.
  • 2 H100 × 2,50 €/tund × 730 tundi/kuus = 3650 €/kuus ainult arvutusvõimsuse eest.
  • Lisaks: salvestamine, võrgustamine, opsi aeg.

Selle töökoormuse jaoks võidab hallatud avatud mudelite pakkuja ise hostimist puhta kulu järgi. Ise hostimine võidab ainult siis, kui sul on vaja ka kontrolli (privaatsus, kohandatud mudel) või sinu läbilaskevõime on palju suurem.

Variant D: ise hostitud omanduses olevatel/pikaajaliselt reserveeritud GPU-del.

  • 2 ostetud või pikaajaliselt reserveeritud H100-t: 1–2 €/tund efektiivselt.
  • 2 H100 × 1,50 €/tund × 730 tundi = 2190 €/kuus.
  • Kõrgem kasutus saab kulu hajutada: kui need GPU-d käsitlevad mitut töökoormust, on töökoormuse kohane kulu madalam.

Nüüd oleme konkurentsivõimelised hallatud avatud mudelite pakkujatega. Aga operatiivne lisakulu on reaalne.

Võtmeleid: selle töökoormuse mastaabis (~10B tokenit/kuus) on ise hostimise sääst hallatud avatud mudelite pakkujate vastu marginaalne. Sääst vs suletud API-d on dramaatiline, kuid hallatud avatud mudelite teenused püüavad enamiku sellest.

10x sellest töökoormusest (100B+ tokenit/kuus) hakkab ise hostimine selgelt võitma. 10x väiksema juures on hostitud vastus.

Operatiivkulu

Lisaks puhtale inferentsikulule, ise hostimise operatiivkulu.

Algne seadistus:

  • Õige inferentsserveri valimine (vLLM, TGI, SGLang).
  • Konfigureerimine oma mudeli ja riistvara jaoks.
  • GPU infrastruktuuri seadistamine (pilv või omanduses).
  • Võrgustamine, turvalisus, vaadeldavus.
  • Kvantiseerimine ja optimeerimine.

Tüüpiline: 1–4 inseneri-nädalat esimeseks juurutamiseks.

Pidev tegevus:

  • Seire (latentsus, läbilaskevõime, vead, GPU kasutus).
  • Võimsuse planeerimine.
  • Uuendused (uued mudelite versioonid, inferentsserveri uuendused, turvaplaastrid).
  • Vahejuhtumitele reageerimine (GPU rikked, OOM-kokkujooksmised, tarkvarabuugid).
  • Skaleerimine (rohkem GPU-sid, kui koormus kasvab).

Tüüpiline: 0,25–1 inseneri FTE pidevalt, sõltuvalt mastaabist.

Peidetud kulud:

  • GPU hinnavolatiilsus.
  • Pilve väljaminekukulud, kui hübriidne.
  • Eriekspertiis (CUDA, kvantiseerimine, optimeerimine).
  • Asenduse / rikete kulud omanduses olevale riistvarale.

Täielikult koormatud 100K–200K € inseneri/aasta juures on isegi osaaja inseneeria tähelepanu märkimisväärne. 5K €/kuus inferentsikulu sääst kaob 15K €/kuus inseneeria kulu alla.

See on koht, kus tiimid alahindavad ise hostimise kulu. Inferentsi matemaatika näeb isolatsioonis suurepärane välja; omanduse kogukulu on palju kõrgem.

Inferentsserverid

Kui sa kavatsed ise hostida, on peamised valikud:

vLLM. Avatud lähtekoodiga. Tõenäoliselt kõige populaarsem avatud lähtekoodiga LLM-ide serveerimiseks. PagedAttention, pidev partiitöötlus, lai mudelitugi. Vaikevalik.

TGI (Text Generation Inference). Hugging Face'i server. Küps, lai mudelitugi, hea jõudlus. Viimasel ajal vähem kiire funktsioonide areng kui vLLM-il.

SGLang. Uuem, väga kõrge jõudlusega. Tugev struktureeritud genereerimise jaoks. Aktiivne arendamine.

LMDeploy. InternLM-i tiimilt. Tugev kvantiseerimine, kiire.

llama.cpp / Ollama. Väiksemate mudelite, madalama läbilaskevõime jaoks. CPU-sõbralik. Mõne kasutusjuhtumi jaoks toodangukõlblik.

Hugging Face TGI Inference Endpoints. Hallatud ise hostimine. Maksa tunni eest instantside eest; HF tegutseb nendega. Vahepealne täielikult ise hostitu ja hallatu vahel.

Modal, RunPod, Replicate. Funktsioon-teenusena inferentsi jaoks. Madalam pühendumus kui täielik ise hostimine; kõrgem kulu kui DIY.

Enamikule tiimidele: vLLM või SGLang toodangu ise hostimiseks. Mõlemad on küpsed, kiired, hästi dokumenteeritud.

Riistvara valikud

GPU küsimus:

NVIDIA H100. Praegune inferentsi tipptase. Renditult ~2–3 €/tund. Annab sulle 80GB VRAM-i, kiire inferentsi. 70B mudelid jooksevad hästi ühel H100-l kvantiseerimisega või 2x ilma.

NVIDIA H200. H100 järglane, rohkem VRAM-i (141GB). Väga suurte mudelite jaoks.

NVIDIA L40S. Ligipääsetavam, ~1–2 €/tund. Hea mõõdukate suurusega mudelite jaoks (kuni ~30B kvantiseerimisega).

NVIDIA A100. Eelmine põlvkond, endiselt laialdaselt saadaval. ~1–2 €/tund. Tööhobune paljudele toodangu juurutustele.

AMD MI300X. Mõne töökoormuse jaoks konkurentsivõimeline H100-ga. Järjest enam saadaval. Mõni tarkvara on NVIDIA virnaga võrreldes ebaküps.

Apple M-seeria. Väga väikeste mudelite jaoks (alla 8B) töötab Mac Studio või Mac Pro ühtse mäluga. Nišikasutusjuhtum.

Enamiku 2026. aasta toodangu ise hostimise jaoks: H100 või H200, kui vajad suuri mudeleid; L40S või A100 mõõdukate jaoks.

Renditallikad: AWS, GCP, Azure (peavool), Lambda Labs, Runpod, Together, Vast.ai (eriala). Hinnastamine varieerub. Spot-/preemptible-instantsid võivad säästa 50–70%, kui talud katkestust.

Kvantiseerimine

Enamik toodangu ise hostitud juurutusi kasutab kvantiseeritud mudeleid. Kompromissid:

FP16 (16-bitine). Vaikimisi täpsus. Täielik kvaliteet. Kõige rohkem mälunäljane.

INT8 / FP8 (8-bitine). Pooldab mälu, väike kvaliteedikadu. Tavaline toodangu valik.

INT4 (4-bitine). Veerand mälu, märgatavam kvaliteedikadu, kuid endiselt kasulik. Agressiivne valik.

AWQ, GPTQ, GGUF. Erinevad kvantiseerimise vormingud erinevate kompromissidega.

70B mudeli jaoks:

  • FP16: 140GB VRAM.
  • INT8: 70GB VRAM.
  • INT4: 35GB VRAM.

H100-l on 80GB VRAM. INT8 mahub mugavalt; FP16 vajab 2 GPU-d.

Kvaliteedimõju:

  • INT8: tavaliselt <1% degradeerumine võrdlustestide peal.
  • INT4: 1–5% degradeerumine, varieerub ülesande järgi.

Testi enne juurutamist oma töökoormuse peal. Mõned ülesanded (eriti struktureeritud/kood) on kvantiseerimisele tundlikumad kui teised.

Läbilaskevõime ja võimsuse planeerimine

Võtme planeerimisküsimus: mitu tokenit sekundis sul vaja on?

Üksikpäringu läbilaskevõime.

  • 70B mudel H100-l, INT8: ~50–80 tokenit sekundis ühele kasutajale.

Partiitatud läbilaskevõime.

  • Mitu samaaegset päringut: 1000–3000 tokenit sekundis kokku üle päringute (vLLM hea partiitustööga).

Latentsuse kaalutlused.

  • Esimese tokeni latentsus: tüüpiliselt 100–500ms.
  • Tokeni kohane latentsus: 10–30ms.

Võimsuse planeerimiseks:

  • Hinda samaaegsete päringute tippu.
  • Hinda keskmist päringu pikkust.
  • Arvuta vajalik kogu tokenite sekundis.
  • Lisa 50% reservi.

Tiim, millel on suur tunnipõhine tokenimaht ja kümned samaaegsed tippkasutajad, vajab tavaliselt mitut tugevat GPU-d või hallatud teenust. Arvuta see oma mudeli, latentsuse ja partiitöötluse põhjal.

Usaldusväärsus ja varuvariant

Ise hostimine tähendab, et omad usaldusväärsust.

Tervisekontrollid. Pidev tervise seire. Taaskäivita ebatervislikud instantsid.

Sujuv degradeerumine. Kui võimsus on küllastunud, eelista aeglaseid vastuseid ebaõnnestumistele.

Varuvariant API-dele. Paljud tiimid hostivad esmast liiklust ise ja kukuvad ülekoormuse korral hallatud API-de peale tagasi. Mõlema maailma parim; keerukus on reaalne.

Varuriistvara. GPU-d ebaõnnestuvad. Hoia varuvõimsust valmis.

Mitmeregiooniline. Globaalsete kasutajate jaoks replikeeri. Või kasuta kaugemate regioonide jaoks hallatud API-sid.

Uuendusstrateegia. Uued mudelite versioonid, serveri uuendused. Sinine-roheline juurutamine, et vältida tööseisakut.

Iga neist on inseneritöö, mille hallatud API-d sulle endasse imevad.

Töönäide: tiimi ise hostimise otsus

Päris näide. SaaS-i tiim, AI-funktsioonid, igakuine inferentsikulu hallatud API-del: 18 000 €.

Matemaatika:

  • 80% inferentsist on klassifikatsioon ja ekstraktimine (saaks jooksutada väiksemal avatud mudelil).
  • 20% on keerukas genereerimine (vajab eesliini suletud).

Plaan:

  • Hosti piisava kvaliteediga avatud mudel ise 80% töökoormuse jaoks.
  • Hoia Claude/GPT API 20% jaoks.
  • 3 H100-t Lambda Labs reserveeritud: ~4500 €/kuus.
  • Inseneeria seadistus: 4 nädalat, 25K € ühekordne.
  • Pidev ops: 0,25 FTE inseneri, ~30K €/aasta.

Tulemus 6 kuu pärast:

  • Inferentskulu langes 18K €/kuus-lt 6K €/kuus-ni (4,5K € ise hostitud + 1,5K € suletud API raskete ülesannete jaoks).
  • Netosääst vs vana: 12K €/kuus = 144K €/aasta.
  • Inseneeriainvesteering: 25K € + 30K € = 55K €/aasta.
  • Neto rahaline kasu: ~89K €/aasta.

Peidetud keerukused:

  • Üks tööseisak, kui juurutamisel oli konfiguratsioonibuug. 2-tunnine osaline degradeerumine.
  • Mitu nädalat pidevat häälestust, et saada optimaalne läbilaskevõime.
  • Iseendal hostimist tegev insener soovinuks teha midagi muud.

Tulemus: rahaliselt positiivne, kuid operatiivselt raskem kui oodatud. Tiim jätkab ise hostimist; kui maht langeks 50%, läheksid nad hallatud peale tagasi.

Selline näeb välja päris edukas ise hostimise otsus. Mitte maagia — inseneritöö mõõdetava ROI-ga.

Töönäide: tiimi „tagasi API-dele" otsus

Teine tiim, sarnane alguspunkt.

Originaalne seadistus: Ise hostitud Llama 3 70B renditud GPU-del. Inferentskulu: 3K €/kuus rent. Pluss inseneeria ~20K €/aasta pidevalt.

Muudatus:

  • Avatud-lähtekoodiga-hallatud-pakkuja hinnastamine langes 50% 18 kuu jooksul.
  • Nende tiim kasvas, kuid ei palganud pühendatud MLOps-i.
  • Ise hostimise seadistus vajas suurt tööd, et uute mudelitega sammu pidada.

Otsus:

  • Lõpeta ise hostimine.
  • Liigu hallatud avatud mudelite pakkujale.
  • Kulu: 2,5K €/kuus hallatud avatud jaoks. Väike sääst, madalam keerukus.
  • Vabasta insener.

Tulemus:

  • Tagasihoidlik rahaline sääst.
  • Inseneri aeg vabanenud tootetöö jaoks.
  • Vähem operatiivset stressi.

Tulemus: õige otsus neile. Ise hostimine võidab mõnele tiimile; teistele mitte.

Millal otsust üle vaadata

Otsus pole püsiv. Vaata perioodiliselt üle:

Mahu muutused. Märkimisväärselt üles: ise hostimine atraktiivsem. Märkimisväärselt alla: vähem atraktiivne.

Hinnamuutused. Suletud API-d odavnevad või kallinevad. Hallatud avatu odavneb. Riistvara odavneb.

Mudelite paranemised. Uued avatud lähtekoodiga mudelid, mis vastavad suletud kvaliteedile. Uued suletud mudelid, mis lähevad eemale.

Operatiivvõimekus. Tiim kasvas või kahanes ML/ops võimekuses.

Privaatsuse / vastavuse muutused. Uued nõuded, mis nõuavad ise hostimist.

Kvartali ülevaade on mõistlik. Mitte pidev ümberhindamine, aga ka mitte „otsustatud korra".

Tavalised vead

Mustrid, mida me näeme ise hostimise otsustes:

Viga 1: kuluarvutus ilma operatiivkuluta. „Ise hostimine säästab 10K €/kuus" — kuid ignoreerib 15K €/kuus inseneeriat. Negatiivne ROI.

Viga 2: liiga vara ise hostida. Inseneeria pingutuse kulutamine ise hostimisele, kui töökoormus on väike. Optimeerimine enneaegne.

Viga 3: eesliini-kvaliteedi ise hostimine väikeste avatud mudelitega. „Saame raha säästa väiksemat mudelit kasutades" — kuid kvaliteet langeb, kasutajad kurdavad. Kukub tagasi API-dele.

Viga 4: varuvarianti pole. Ise hostitud infrastruktuur kukub maha; sujuvat degradeerumist pole. Tööseisak, kui API-klientidel poleks olnud.

Viga 5: optimeerimisse alainvesteerimine. 70B mudeli jooksutamine ühel GPU-l 5 tokenit/s, kui korralik seadistus annab 50. Suurema osa väärtusest visatakse minema.

Viga 6: kvaliteeditriivi ignoreerimine. Ise hostitud mudel on degradeerunud vs praegune suletud. Kliendid märkavad; tiim ei märka.

Viga 7: mitte uuesti kaaluda. Korra ise hostides, ei vaata enam üle. Otsus võis olla õige kaks aastat tagasi ja vale nüüd.

Viga 8: spot-/preemptible ilma sujuva käsitlemiseta. Säästis 60% arvutusvõimsuselt; tööseisakud paari tunni tagant, kui instantsid taastatakse.

Otsustusekontrollnimekiri

Otsuse tahtlikuks tegemiseks:

  • [ ] Inferentskulud API-del on vähemalt 5–10K €/kuus?
  • [ ] Töökoormus on stabiilne ja ennustatav?
  • [ ] Tiimil on või saab palgata MLOps/inferentsi ekspertiisi?
  • [ ] Avatud lähtekoodiga mudel on olemas piisava kvaliteediga?
  • [ ] Latentsuse nõuded on ise hostimisega ühilduvad?
  • [ ] Oled teinud detailse kuluarvutuse, kaasa arvatud operatiivkulud?
  • [ ] Sul on varuplaan?
  • [ ] Vastavuse/privaatsuse nõuded ei nõua ühte teed?
  • [ ] Kas vaatad kvartali tagant üle?

Kui enamik on jah, on ise hostimine tõsiselt kaaluda väärt.

Hübriidmustrid

See pole kõik-või-mitte-midagi. Paljud tiimid jooksevad hübriidselt:

Ise hostitud massi jaoks; API-d raskete juhtumite jaoks. Klassifikatsioon, lihtne genereerimine ise hostitud; keerukas arutlus suletud API-del.

Ise hostitud stabiilse jaoks; API-d tippude jaoks. Ise hostitud käsitleb põhikoormust; API-d neelavad tipud.

Ise hostitud tundliku jaoks; API-d üldise jaoks. Tundlikud andmed läbi ise hostitud; üldised päringud läbi API-de.

Ise hostitud peenhäälestuste jaoks; API-d baasi jaoks. Kohandatud mudelid jooksevad sa ise; karbist mudelid API-delt.

Hübriid lisab keerukust, kuid püüab sageli mõlema parimad. Mastaabis tiimide jaoks on hübriid sageli õige vastus.

Kokkuvõte

LLM-i inferentsi ise hostimine on 2026. aastal tõeliselt elujõuline. Avatud lähtekoodiga mudelid on konkurentsivõimelised. Inferentsserverid on küpsed. Riistvara on saadaval.

Aga operatiivkulu on reaalne ja seda on lihtne alahinnata. Tasuvuspiir hallatud API-de vastu on umbes 5–10K €/kuus inferentsikulu; selle all inseneeriainvesteering ei tasu end ära.

Tiimid, kes hostivad edukalt ise:

  • On teinud matemaatika ausalt, kaasa arvatud operatiivkulud.
  • Omavad või saavad ehitada MLOps võimekust.
  • Jooksevad piisavas mastaabis, et õigustada investeeringut.
  • Omavad stabiilseid töökoormusi.
  • Ei vaja eesliini-ainult võimekusi.
  • Planeerivad usaldusväärsust, seiret ja uuendusi.

Tiimid, kes peaksid jääma API-dele:

  • Madalam mastaap.
  • Tipuvahelised töökoormused.
  • Vaja kiiret iteratsiooni.
  • Väikesed tiimid ilma operatiivvõimekuseta.
  • Vaja eesliini-suletud võimekusi.

Õige vastus on sinu olukorrale spetsiifiline. Tee numbrid hoolikalt. Hinda ausalt oma operatiivvõimekust. Vaikimisi vali API-d, kui ise hostimine selgelt ei võida.

Kui ise hostimine võidab, võidab see suurelt — majanduslikult ja arhitektuuriliselt. Kui ei, on see kallis viis avastada, et hallatud API-d olid kogu aeg õige valik.

Järgmisena loe

Jätka sama õpiteekonda järgmiste praktiliste artiklitega.