Ugrás a tartalomra
BILDR.HUB
← Blog·ai8 min read

Self-hosted LLM-ek, Ollama, vLLM, érdemes-e KKV-nak?

Az adatvédelmi szempontból érzékeny KKV-k egyre többet kérdezik: nem futtathatnánk-e mindent magunknál? Megnéztük élesben.

Turny Bátor·ügyvezető, BILDR HUB·
Self-hosted LLM-ek, Ollama, vLLM, érdemes-e KKV-nak?

A KKV audit beszélgetéseink kb. 30%-ában jön elő: „mi van, ha nem szeretnénk az adatainkat OpenAI-hoz vagy Anthropic-hoz küldeni?”. Jogos kérdés, főleg ügyvédi irodánál, egészségügyben, könyvelőknél. A self-hosted LLM technológia 2026-ra eljutott oda, hogy ez nem nevetséges válasz többé, de még mindig nem triviális.

Mit lehet ma futtatni saját szerveren

A nyílt forrású modellek (Llama 3.3 70B, Qwen 2.5 72B, Mistral Large, DeepSeek V3) ma az egy-másfél évvel ezelőtti GPT-4 szintet hozzák. Egyszerű klasszifikációra, magyar nyelvű chat-re, dokumentum-összefoglalóra ez bőven elég. Kódolásra vagy komplex reasoning-re még nem versenyképesek a frontier modellekkel.

Ollama vs vLLM

  • Ollama: dev experience, lokális futtatás, egyszerű telepítés. 1-3 fős csapatnak, prototípushoz tökéletes.
  • vLLM: production-grade inference szerver, batch processing, magas throughput. KKV éles workload-ra ezt használjuk.
  • Text Generation Inference (TGI): Hugging Face megoldása, hasonló mint a vLLM, de a HF ökoszisztémába épül.

A hardware ami kell

Egy 70B paraméteres modell quantizált (Q4) változata kb. 40-50 GB VRAM-ot igényel. Praktikusan: 2x RTX 4090 vagy egy A100 80GB. Bérleti díja Hetzner / OVH / RunPod-on havi 800-1500 EUR között. Egy KKV-nak ez akkor éri meg, ha a havi API költsége már most ennek többszöröse, vagy ha adatvédelmi okból nincs más opció.

Számítsuk ki

  1. 01Havi 200 USD API költség alatt: NE self-hostolj. Drágább lesz.
  2. 02Havi 500-1500 USD között: határeset, csak ha adatvédelmi indok van.
  3. 03Havi 2000 USD felett: érdemes komolyan számolni. Hibrid is jó (érzékeny adat helyben, többi cloud).

Amit a marketing nem mond el

Self-hosted LLM = saját DevOps. Valakinek figyelnie kell a GPU healthet, frissítenie a modellt, mérnie a latency-t, monitoroznia a kvótát. Egy KKV-nál ez gyakran az a 0.5-1 FTE plusz teher amit a TCO számításból kihagynak. Mi mindig benne kalkuláljuk az ajánlatban.

Hibrid setup ami nálunk működik

Két ügyfélnél a következőképpen állítottuk be: az érzékeny adatot tartalmazó request (pl. egészségügyi dokumentum) helyi vLLM-re megy Qwen 2.5 72B-re. Minden más (általános chat, marketing tartalom, nem érzékeny ügyfélkommunikáció) Claude Sonnet API-ra. A routing layer egy szimpla classifier, ami a request tartalmából dönt. Így az API költség 60-70%-kal lement, és a compliance is rendben van.

Nem az a kérdés, hogy self-host vagy cloud. A kérdés az, hogy melyik adatot hol érdemes feldolgozni. A válasz szinte mindig: vegyesen.

A szerző

Turny Bátor

ügyvezető, BILDR HUB

Egyeztetés