Kiire LLM-serveerimine vLLM-i ja PagedAttentioniga

32 minutitEkspertPrivaatne ja lokaalne AI

Anyscale. Käib läbi, miks naiivne LLM-serveerimine raiskab 60–80% GPU mälust, kuidas PagedAttention laenab OS-i stiilis pagineerimist seda parandama ja miks pidev batching toodab 24× läbilaskvuse numbreid, mida artikkel oma matemaatikas kasutab. Pärast seda lakkab artikli "õnneks tabad 50% kasutusastet" rida abstraktne olemast.

AI Experti märkus

Mudelite nimed, hinnad ja võimekused muutuvad kiiresti. Kasuta videot otsustusmustri mõistmiseks ning kontrolli praegust mudelikäitumist enne kasutuselevõttu.

Mida sellest videost kaasa võtta

Saad tehnilise mustri teemal "Ise-hostitud vs hostitud inference" ning oskad hinnata riske, piire ja järgmist sammu.

Mida enne vaadata või teada

Kasuks tuleb arusaam API-dest, automatsioonidest, RAG-ist või agentide tööpõhimõtetest.

Järgmisena vaata

Jätka sama õpiteekonda järgmiste hoolikalt valitud kaasvideotega.

Vertikaalsed AI-agendid võivad olla 10X SaaS-ist suuremad

Saad tehnilise mustri teemal "LLM-toote välja saatmine" ning oskad hinnata riske, piire ja järgmist sammu.

Vaata järgmist

Kuidas ehitada usaldusväärseid AI agente: kontekst ja evalid

Disainida AI töövooge konteksti, evalide ja observability ümber, nii et tootmisvead oleksid nimetatavad, mõõdetavad ja parandatavad.

Vaata järgmist

RAG-i õigused ja ligipääsukontroll: süvitsi õpetus

Hinnata praktilisi ligipääsukontrolli mustreid ettevõtte teadmiste RAG-i jaoks enne tundlike sisemiste dokumentide indekseerimist.

Vaata järgmist

Seotud videod

VMware Private AI Foundationi võimekused ja uuendused Broadcomilt

LLM-i arendamine: ehitamine, treenimine, finetuning

LLM-mudelite fine-tuning – generatiivse AI kursus

LM Studio õpetus: käivita suuri keelemudeleid (LLM) oma sülearvutil