← Zurück zum Entwicklerblog KI-Inferenz

2026: Ollama & Open-Source-LLMs auf günstigem GPU-VPS — VRAM, CUDA/Docker & API-Kosten FAQ

📅 21. Mai 2026 · 10 Min. · VRAM, CUDA/Docker-Abnahme und GPU-vs.-API-Break-even

Wer Llama 3, Qwen, Mistral und andere Open-Weights auf eigener Infrastruktur betreiben will, nutzt 2026 oft noch Ollama: Modell ziehen, lokalen OpenAI-kompatiblen Endpunkt /v1 bereitstellen und die dokumentierte Installation unter Linux + NVIDIA CUDA folgen. Dieser Leitfaden adressiert die Suchintention hinter cheap GPU VPS, ollama vps und run ollama cloud: entscheiden, ob ein GPU-Host Token-APIs schlägt, VRAM dimensionieren, eine kopierbare CUDA-/Docker-Abnahme-Checkliste durchlaufen und GPU-Monatsmiete mit API-Rechnungen vergleichen — mit einer parametrisierten Formel, ohne erfundene vpszap-Listenpreise.

GPU-Server-Racks in einem Rechenzentrum — Ollama und Open-Source-LLM-Inferenz auf einem günstigen GPU-VPS

Wer sollte Ollama auf einem GPU-VPS betreiben (private Inferenz, Compliance, Batch vs. Live-API)

Selbst gehostetes Ollama auf einem GPU-Server passt, wenn: (1) Prompts oder Trainingsdaten Ihr Perimeter nicht verlassen dürfen — private Inferenz und Audit-Trails zählen; (2) nachts und am Wochenende große Summarisierungs-, Labeling- oder RAG-Indexierungsjobs laufen und Offline-Batch günstiger ist als Bezahlung pro Request; (3) ein festes Set interner Dienste (grob 3–20 gleichzeitige Aufrufer) dasselbe Modell trifft und API-Kosten monatlich linear steigen; (4) Sie Modellversionen und Quantisierungsstufen (Q4_K_M, Q5 usw.) pinnen müssen statt stiller Upstream-Wechsel.

Kommerzielle Token-APIs gewinnen weiter, wenn Spitzen unvorhersehbar sind, Sie die neuesten geschlossenen Modelle brauchen oder niemand Treiber und Disks wartet. Bei sehr geringem Monatsvolumen (z. B. unter ~5M Token) und lockerer Latenz kann eine feste GPU-Miete die meiste Zeit leerstehen. Grenze: CPU-only-Kleinst-Quants auf einem günstigen VPS ohne GPU sind möglich, aber Kontextlänge und tokens/s brechen ein — dieser Artikel setzt Ollama + NVIDIA-GPU voraus.

VRAM und Modellgröße (Degradationspfade bei knapper VRAM)

Dimensionierung ist nicht „Parameter ÷ 2“. Kalkulieren Sie Parameter × Quant-Bits + KV-Cache, der mit Kontextlänge und parallelen Sessions wächst. Die Tabelle unten spiegelt übliche Inferenz-Stufen 2026 (eine Instanz, ~8k Kontext); validieren Sie mit nvidia-smi auf Ihrem Host.

ModellskalaTypische QuantEmpfohlene VRAM (ein Stream)Typische Cloud-SKUWenn VRAM nicht reicht
7B (Llama 3, Qwen 2.5 usw.)Q4_K_M≈ 6–8 GBRTX 3060 12G, T4; RTX 4090 mit ReserveQ3 oder kürzerer Kontext; weniger parallele Requests
7BQ8 / teilweise FP16≈ 10–14 GBRTX 3080/4080, L4Auf Q4 wechseln; überflüssige Adapter entfernen
13BQ4_K_M≈ 10–12 GBRTX 4090 24G, A10 24G7B-Distill; Offline-Batch
34B–40BQ4≈ 22–26 GBRTX 4090 24G (knapp), A100 40G13B; Multi-GPU (abhängig von Ollama-Version)
70BQ4_K_M≈ 40–48 GB+A100 80G, H100, Multi-GPU34B oder geteilte Pipeline; API für Spitzen

RTX-4090-Klasse als günstiger GPU-VPS ist meist der Sweet Spot für 7B–13B-Quants. A100-/H100-Cloud-GPU-Stufen gehören zu 70B, langem Kontext oder höherer Parallelität. Degradationsreihenfolge: weniger Parallelität → kürzerer Kontext → kleinere Quant → kleineres Modell → Batch-Jobs aufteilen — nicht zuerst die größten Gewichte starten und in OOM-Schleifen landen.

Diagramm: Singapur, Tokio, Seoul, Hongkong, US Ost und West — Ollama-Endpunkt nahe Aufrufern und Geschäftssystemen
AI-Inference-Hosting: Ollama-Endpunkt nahe Ihrer App, nicht nur die günstigste Metro

Docker und Bare-Metal-CUDA: zwei Installations-Checklisten

Pfad A: Bare-Metal-Linux + NVIDIA-Treiber (üblicher Produktionsstandard)

  • Nach Bereitstellung der GPU-Instanz per SSH einloggen; ≥ 80 GB Disk einplanen — Modell-Cache wächst schnell.
  • NVIDIA-Treiber installieren; mit nvidia-smi abnehmen (GPU-Name, Treiberversion, VRAM gesamt).
  • Ollama laut Doku: curl -fsSL https://ollama.com/install.sh | sh, dann sudo systemctl enable --now ollama (Unit-Name kann variieren).
  • Modell ziehen: ollama pull qwen2.5:7b-instruct-q4_K_M (Tag laut Bibliothek).
  • Health: curl -s http://127.0.0.1:11434/api/tags liefert JSON; nach außen nur hinter TLS und Auth.
  • OpenAI-kompatibler Probe: curl http://127.0.0.1:11434/v1/models.

Pfad B: Docker + NVIDIA Container Toolkit

  • nvidia-container-toolkit installieren, sudo nvidia-ctk runtime configure --runtime=docker, Docker neu starten.
  • Start: docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama (Tag auf Docker Hub prüfen).
  • Im Container: docker exec -it ollama ollama run llama3.2.
  • Gleiche Checks: curl http://127.0.0.1:11434/api/tags; Logs via docker logs -f ollama.

Wer Container-Stacks auf einem Gateway-Host debuggt, überträgt die Schicht-für-Schicht-Gesundheitsprüfung aus OpenClaw Docker Compose Deployment Troubleshooting gut auf Linux-GPU + Ollama (Volumes, Probes, „Prozess läuft, Handshake scheitert“).

Performance und Kosten: tokens/s-Benchmark und Break-even-Rechnung

Leichtgewicht-Benchmark (kopierbar)

# 1) VRAM-Baseline
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1

# 2) Gestreamter Lauf — tokens/s abschätzen (eigenen Modellnamen verwenden)
time ollama run qwen2.5:7b-instruct-q4_K_M "Liste in 200 Wörtern eine Abnahme-Checkliste für AI-Inference-Hosting."

# 3) HTTP-Smoke (hey oder wrk installieren; zuerst Rate limitieren)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
  -d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
  http://127.0.0.1:11434/api/generate

Notieren Sie drei Werte für Ihre Entscheidungsmatrix: Zeit bis zum ersten Token, stabile tokens/s und ob Parallelität = 2 OOM auslöst. Relative Vergleiche auf derselben Maschine zählen mehr als öffentliche Rankings.

Monatskosten-Rahmen (eigene Preise einsetzen)

Sei G = monatliche GPU-Host-Miete (oder $/GPU-Stunde × 730), E = Strom/Colocation bei Self-Hosting, A = Ops-Aufschlag (optional). API-Ausgaben ≈ T × P, wobei T monatliche Token (Input/Output getrennt, falls getrennt tarifiert) und P der $/1M-Token des Anbieters laut aktueller öffentlicher Seiten ist.

Break-even (grob): Wenn G + E + A < T × P und die GPU ausgelastet bleibt, lohnt Self-Hosting; sonst APIs — oder Hybrid (API für Spitzen, Ollama für Täler).

SzenarioMonatliche Token (illustrativ)TendenzHinweise
Solo-Entwickler< 3MAPI oder kurze 4090-Miete zum TestFeste Miete kann leerstehen
3-köpfiges Produktteam20M–80MEin 4090 + Ollama gewinnt oftNacht-Batch erhöht Auslastung
Nacht-Batch (~8h/Tag)elastischGPU-Stunden-Abrechnung kann 24/7 schlagenTagsüber abschalten
70B + langer KontexthochA100-Stufe + strenge ParallelitätslimitsOOM und API-Rechnungen tun beide weh

Beispiel-Platzhalter (durch eigene Angebote ersetzen): bei G = 280 $/Monat für Cloud-GPU der 4090-Klasse, T = 50M Token, gemischtes P ≈ 0,6 $/1M, API ≈ 30 $ — die API wirkt günstiger in Cash, schließt aber Datenresidenz und Versionskontrolle aus. Bei T = 500M, API ≈ 300 $, beginnt Self-Hosting zu konkurrieren — wenn Sie Treiber, Disks und Security betreiben. Für Multi-Provider-Routing (Ollama bleibt Inferenz-Kern) siehe OpenClaw Multi-Provider-Konfiguration und Failover. Regionale Latenz-Entscheidungen für verteilte Teams finden Sie in der Entscheidungsmatrix Cloud-Mac 2026 (Latenz & Regionen).

Produktionshärtung: systemd, Neustarts, Disk, Logs, Rate-Limits

  • systemd: Restart=on-failure; Ollama vor Upgrades stoppen, um halbgeschriebene Blobs zu vermeiden.
  • Disk: Alarm, wenn /var/lib/ollama oder Docker-Volume unter ~15 % frei — parallele Pulls füllen schnell.
  • Logs: Journal oder docker logs rotieren; Modell-Tag, Quant und Parallelität für OOM-Postmortems festhalten.
  • Rate-Limits: QPS und Body-Größe auf /v1/chat/completions am Reverse-Proxy deckeln; 11434 nie auf 0.0.0.0 ohne Auth.
  • Config as Code: Modell-Cache aus Pulls neu aufbauen; Modelfiles und Policy in Git.

GPU-VPS bedeutet meist nur SSH — kein VNC. Bastion und Port-Forwarding für Admin-Endpunkte einplanen, analog zum Absichern eines Build-Hosts.

Fehlermatrix (CUDA-Mismatch, OOM, langsame Pulls, offene Ports)

SymptomWahrscheinliche UrsacheFix-Reihenfolge
nvidia-smi ohne GPUTreiber fehlt, GPU nicht angehängt, Reboot nötigGPU-SKU in Konsole → Treiber neu → Provider-Ticket
Keine GPU im ContainerToolkit fehlt, kein --gpus=allnvidia-ctk configure → Docker neu starten
CUDA-Versions-Mismatch in LogsTreiber vs. Runtime-BibliothekenHost-Treiber angleichen; offiziellen ollama/ollama-Tag pinnen
OOM / Prozess gekilltModell zu groß, Parallelität, langer KontextParallelität senken → Kontext kürzen → Q4 → 7B
Langsamer ollama pullGrenzüberschreitende Bandbreite, langsame DiskPulls außerhalb Peak; größere Disk; konformer Mirror falls erlaubt
Gescanntes offenes 11434Öffentliches Binding 0.0.0.0Security-Group-Allowlist; API-Key oder mTLS

Fußnote: Teams mit Continuous Batching und Hot-LoRA-Swaps evaluieren manchmal separat vLLM. Dieser Artikel bleibt bei Ollama wegen Installationsfläche und /v1-Kompatibilität für kleine und mittlere Teams.

Wann ein günstiger GPU-VPS nicht der Default ist (Grenzen)

  • Sehr wenige monatliche Token und kein Linux-Betreiber — Zeit über APIs kaufen statt Treiber.
  • 70B volle Präzision oder schweres Multimodal — eine 4090 reicht nicht; billigste SKU nicht erzwingen.
  • Angekündigte VRAM passt nicht zu nvidia-smi — SKU oder Region wechseln, nicht Prompts um Betrug herum optimieren.
  • Compliance verlangt dedizierte Hardware-Attestierungen — Verträge und Logging prüfen, nicht nur $/Stunde.

FAQ

  • Günstiger GPU-Server vs. Cloud GPU? VPS-artige Einzelkarten-Miete vs. GPU-Stunden-Pools. Wählen nach Bedarf 24/7 oder intermittierendem Batch.
  • Kann Ollama OpenAI vollständig ersetzen? Für Open Weights und tolerante Latenz auf internen Tools oft ja; für neueste geschlossene Modelle oder strenge SLA API-Kapazität behalten.
  • Minimum für lokales LLM-Deployment? 7B Q4 will ≥ ~8 GB nutzbare VRAM; in Produktion oft 24 GB Reserve für KV und Parallelität.
  • Wie AI-Inference-Hosting abnehmen? nvidia-smi, /api/tags und tokens/s-Baseline mit festem Prompt vor Traffic-Umschaltung.
  • Managed „run Ollama cloud“ vs. DIY? Managed spart Ops; DIY kontrolliert Daten und Unit Economics. Bei vpszap stellen Sie GPU-Instanzen bereit und führen diese Checkliste auf der Maschine aus.

GPU-Stufe an Modellgröße koppeln — Ollama-Abnahme vor dem Scale-out

vpszap ist eine KI-Entwickler-Infrastruktur-Plattform: neben Cloud-Mac können Sie GPU-VPS / Cloud GPU für LLM-Hosting wählen — RTX-4090-Klasse für 7B–13B-Quants, A100-Klasse für schwerere Gewichte oder mehr parallele Streams. Nach der Bereitstellung ollama pull und /api/tags aus diesem Artikel, dann Instanzen ergänzen, wenn Benchmarks es rechtfertigen. Inferenz nahe Ihrer App platzieren (Singapur, Tokio, Seoul, Hongkong, US Ost/West — siehe Konsole). Start über Preise, Konfigurieren & Bestellen oder die vpszap-Startseite für GPU-VPS und KI-Inferenz — kein GPU-loser Linux-VPS für WordPress.

vpszap

GPU-Stufe wählen, Ollama abnehmen, dann skalieren

RTX-4090-Klasse für 7B–13B-Quants; A100-Klasse für schwerere Modelle oder höhere Parallelität. Baseline /api/tags und tokens/s vor Produktions-Traffic.