2026: Ollama & Open-Source-LLMs auf günstigem GPU-VPS — VRAM, CUDA/Docker & API-Kosten FAQ

Wer Llama 3, Qwen, Mistral und andere Open-Weights auf eigener Infrastruktur betreiben will, nutzt 2026 oft noch Ollama: Modell ziehen, lokalen OpenAI-kompatiblen Endpunkt /v1 bereitstellen und die dokumentierte Installation unter Linux + NVIDIA CUDA folgen. Dieser Leitfaden adressiert die Suchintention hinter cheap GPU VPS, ollama vps und run ollama cloud: entscheiden, ob ein GPU-Host Token-APIs schlägt, VRAM dimensionieren, eine kopierbare CUDA-/Docker-Abnahme-Checkliste durchlaufen und GPU-Monatsmiete mit API-Rechnungen vergleichen — mit einer parametrisierten Formel, ohne erfundene vpszap-Listenpreise.

GPU-Server-Racks in einem Rechenzentrum — Ollama und Open-Source-LLM-Inferenz auf einem günstigen GPU-VPS

Wer sollte Ollama auf einem GPU-VPS betreiben (private Inferenz, Compliance, Batch vs. Live-API)

Selbst gehostetes Ollama auf einem GPU-Server passt, wenn: (1) Prompts oder Trainingsdaten Ihr Perimeter nicht verlassen dürfen — private Inferenz und Audit-Trails zählen; (2) nachts und am Wochenende große Summarisierungs-, Labeling- oder RAG-Indexierungsjobs laufen und Offline-Batch günstiger ist als Bezahlung pro Request; (3) ein festes Set interner Dienste (grob 3–20 gleichzeitige Aufrufer) dasselbe Modell trifft und API-Kosten monatlich linear steigen; (4) Sie Modellversionen und Quantisierungsstufen (Q4_K_M, Q5 usw.) pinnen müssen statt stiller Upstream-Wechsel.

Kommerzielle Token-APIs gewinnen weiter, wenn Spitzen unvorhersehbar sind, Sie die neuesten geschlossenen Modelle brauchen oder niemand Treiber und Disks wartet. Bei sehr geringem Monatsvolumen (z. B. unter ~5M Token) und lockerer Latenz kann eine feste GPU-Miete die meiste Zeit leerstehen. Grenze: CPU-only-Kleinst-Quants auf einem günstigen VPS ohne GPU sind möglich, aber Kontextlänge und tokens/s brechen ein — dieser Artikel setzt Ollama + NVIDIA-GPU voraus.

Hinweis: Ollama dokumentiert ollama serve, ollama pull und OpenAI-kompatibles /v1 unter Linux. Treiber- und Docker-Tags ändern sich — prüfen Sie vor dem Cutover Ollama auf Linux und Ollama Docker.

VRAM und Modellgröße (Degradationspfade bei knapper VRAM)

Dimensionierung ist nicht „Parameter ÷ 2“. Kalkulieren Sie Parameter × Quant-Bits + KV-Cache, der mit Kontextlänge und parallelen Sessions wächst. Die Tabelle unten spiegelt übliche Inferenz-Stufen 2026 (eine Instanz, ~8k Kontext); validieren Sie mit nvidia-smi auf Ihrem Host.

Modellskala	Typische Quant	Empfohlene VRAM (ein Stream)	Typische Cloud-SKU	Wenn VRAM nicht reicht
7B (Llama 3, Qwen 2.5 usw.)	Q4_K_M	≈ 6–8 GB	RTX 3060 12G, T4; RTX 4090 mit Reserve	Q3 oder kürzerer Kontext; weniger parallele Requests
7B	Q8 / teilweise FP16	≈ 10–14 GB	RTX 3080/4080, L4	Auf Q4 wechseln; überflüssige Adapter entfernen
13B	Q4_K_M	≈ 10–12 GB	RTX 4090 24G, A10 24G	7B-Distill; Offline-Batch
34B–40B	Q4	≈ 22–26 GB	RTX 4090 24G (knapp), A100 40G	13B; Multi-GPU (abhängig von Ollama-Version)
70B	Q4_K_M	≈ 40–48 GB+	A100 80G, H100, Multi-GPU	34B oder geteilte Pipeline; API für Spitzen

RTX-4090-Klasse als günstiger GPU-VPS ist meist der Sweet Spot für 7B–13B-Quants. A100-/H100-Cloud-GPU-Stufen gehören zu 70B, langem Kontext oder höherer Parallelität. Degradationsreihenfolge: weniger Parallelität → kürzerer Kontext → kleinere Quant → kleineres Modell → Batch-Jobs aufteilen — nicht zuerst die größten Gewichte starten und in OOM-Schleifen landen.

Diagramm: Singapur, Tokio, Seoul, Hongkong, US Ost und West — Ollama-Endpunkt nahe Aufrufern und Geschäftssystemen — AI-Inference-Hosting: Ollama-Endpunkt nahe Ihrer App, nicht nur die günstigste Metro

Docker und Bare-Metal-CUDA: zwei Installations-Checklisten

Pfad A: Bare-Metal-Linux + NVIDIA-Treiber (üblicher Produktionsstandard)

Nach Bereitstellung der GPU-Instanz per SSH einloggen; ≥ 80 GB Disk einplanen — Modell-Cache wächst schnell.
NVIDIA-Treiber installieren; mit nvidia-smi abnehmen (GPU-Name, Treiberversion, VRAM gesamt).
Ollama laut Doku: curl -fsSL https://ollama.com/install.sh | sh, dann sudo systemctl enable --now ollama (Unit-Name kann variieren).
Modell ziehen: ollama pull qwen2.5:7b-instruct-q4_K_M (Tag laut Bibliothek).
Health: curl -s http://127.0.0.1:11434/api/tags liefert JSON; nach außen nur hinter TLS und Auth.
OpenAI-kompatibler Probe: curl http://127.0.0.1:11434/v1/models.

Pfad B: Docker + NVIDIA Container Toolkit

nvidia-container-toolkit installieren, sudo nvidia-ctk runtime configure --runtime=docker, Docker neu starten.
Start: docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama (Tag auf Docker Hub prüfen).
Im Container: docker exec -it ollama ollama run llama3.2.
Gleiche Checks: curl http://127.0.0.1:11434/api/tags; Logs via docker logs -f ollama.

Wer Container-Stacks auf einem Gateway-Host debuggt, überträgt die Schicht-für-Schicht-Gesundheitsprüfung aus OpenClaw Docker Compose Deployment Troubleshooting gut auf Linux-GPU + Ollama (Volumes, Probes, „Prozess läuft, Handshake scheitert“).

Versionsdrift: Wenn nvidia-smi auf dem Host funktioniert, der Container aber keine GPU sieht, fehlt oft Toolkit/Runtime — an aktuelle NVIDIA- und Ollama-Doku anbinden statt eine CUDA-Build-Nummer auswendig zu lernen.

Performance und Kosten: tokens/s-Benchmark und Break-even-Rechnung

Leichtgewicht-Benchmark (kopierbar)

# 1) VRAM-Baseline
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1

# 2) Gestreamter Lauf — tokens/s abschätzen (eigenen Modellnamen verwenden)
time ollama run qwen2.5:7b-instruct-q4_K_M "Liste in 200 Wörtern eine Abnahme-Checkliste für AI-Inference-Hosting."

# 3) HTTP-Smoke (hey oder wrk installieren; zuerst Rate limitieren)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
  -d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
  http://127.0.0.1:11434/api/generate

Notieren Sie drei Werte für Ihre Entscheidungsmatrix: Zeit bis zum ersten Token, stabile tokens/s und ob Parallelität = 2 OOM auslöst. Relative Vergleiche auf derselben Maschine zählen mehr als öffentliche Rankings.

Monatskosten-Rahmen (eigene Preise einsetzen)

Sei G = monatliche GPU-Host-Miete (oder $/GPU-Stunde × 730), E = Strom/Colocation bei Self-Hosting, A = Ops-Aufschlag (optional). API-Ausgaben ≈ T × P, wobei T monatliche Token (Input/Output getrennt, falls getrennt tarifiert) und P der $/1M-Token des Anbieters laut aktueller öffentlicher Seiten ist.

Break-even (grob): Wenn G + E + A < T × P und die GPU ausgelastet bleibt, lohnt Self-Hosting; sonst APIs — oder Hybrid (API für Spitzen, Ollama für Täler).

Szenario	Monatliche Token (illustrativ)	Tendenz	Hinweise
Solo-Entwickler	< 3M	API oder kurze 4090-Miete zum Test	Feste Miete kann leerstehen
3-köpfiges Produktteam	20M–80M	Ein 4090 + Ollama gewinnt oft	Nacht-Batch erhöht Auslastung
Nacht-Batch (~8h/Tag)	elastisch	GPU-Stunden-Abrechnung kann 24/7 schlagen	Tagsüber abschalten
70B + langer Kontext	hoch	A100-Stufe + strenge Parallelitätslimits	OOM und API-Rechnungen tun beide weh

Beispiel-Platzhalter (durch eigene Angebote ersetzen): bei G = 280 $/Monat für Cloud-GPU der 4090-Klasse, T = 50M Token, gemischtes P ≈ 0,6 $/1M, API ≈ 30 $ — die API wirkt günstiger in Cash, schließt aber Datenresidenz und Versionskontrolle aus. Bei T = 500M, API ≈ 300 $, beginnt Self-Hosting zu konkurrieren — wenn Sie Treiber, Disks und Security betreiben. Für Multi-Provider-Routing (Ollama bleibt Inferenz-Kern) siehe OpenClaw Multi-Provider-Konfiguration und Failover. Regionale Latenz-Entscheidungen für verteilte Teams finden Sie in der Entscheidungsmatrix Cloud-Mac 2026 (Latenz & Regionen).

Produktionshärtung: systemd, Neustarts, Disk, Logs, Rate-Limits

systemd: Restart=on-failure; Ollama vor Upgrades stoppen, um halbgeschriebene Blobs zu vermeiden.
Disk: Alarm, wenn /var/lib/ollama oder Docker-Volume unter ~15 % frei — parallele Pulls füllen schnell.
Logs: Journal oder docker logs rotieren; Modell-Tag, Quant und Parallelität für OOM-Postmortems festhalten.
Rate-Limits: QPS und Body-Größe auf /v1/chat/completions am Reverse-Proxy deckeln; 11434 nie auf 0.0.0.0 ohne Auth.
Config as Code: Modell-Cache aus Pulls neu aufbauen; Modelfiles und Policy in Git.

GPU-VPS bedeutet meist nur SSH — kein VNC. Bastion und Port-Forwarding für Admin-Endpunkte einplanen, analog zum Absichern eines Build-Hosts.

Fehlermatrix (CUDA-Mismatch, OOM, langsame Pulls, offene Ports)

Symptom	Wahrscheinliche Ursache	Fix-Reihenfolge
`nvidia-smi` ohne GPU	Treiber fehlt, GPU nicht angehängt, Reboot nötig	GPU-SKU in Konsole → Treiber neu → Provider-Ticket
Keine GPU im Container	Toolkit fehlt, kein `--gpus=all`	`nvidia-ctk configure` → Docker neu starten
CUDA-Versions-Mismatch in Logs	Treiber vs. Runtime-Bibliotheken	Host-Treiber angleichen; offiziellen `ollama/ollama`-Tag pinnen
OOM / Prozess gekillt	Modell zu groß, Parallelität, langer Kontext	Parallelität senken → Kontext kürzen → Q4 → 7B
Langsamer `ollama pull`	Grenzüberschreitende Bandbreite, langsame Disk	Pulls außerhalb Peak; größere Disk; konformer Mirror falls erlaubt
Gescanntes offenes 11434	Öffentliches Binding 0.0.0.0	Security-Group-Allowlist; API-Key oder mTLS

Fußnote: Teams mit Continuous Batching und Hot-LoRA-Swaps evaluieren manchmal separat vLLM. Dieser Artikel bleibt bei Ollama wegen Installationsfläche und /v1-Kompatibilität für kleine und mittlere Teams.

Wann ein günstiger GPU-VPS nicht der Default ist (Grenzen)

Sehr wenige monatliche Token und kein Linux-Betreiber — Zeit über APIs kaufen statt Treiber.
70B volle Präzision oder schweres Multimodal — eine 4090 reicht nicht; billigste SKU nicht erzwingen.
Angekündigte VRAM passt nicht zu nvidia-smi — SKU oder Region wechseln, nicht Prompts um Betrug herum optimieren.
Compliance verlangt dedizierte Hardware-Attestierungen — Verträge und Logging prüfen, nicht nur $/Stunde.

FAQ

Günstiger GPU-Server vs. Cloud GPU? VPS-artige Einzelkarten-Miete vs. GPU-Stunden-Pools. Wählen nach Bedarf 24/7 oder intermittierendem Batch.
Kann Ollama OpenAI vollständig ersetzen? Für Open Weights und tolerante Latenz auf internen Tools oft ja; für neueste geschlossene Modelle oder strenge SLA API-Kapazität behalten.
Minimum für lokales LLM-Deployment? 7B Q4 will ≥ ~8 GB nutzbare VRAM; in Produktion oft 24 GB Reserve für KV und Parallelität.
Wie AI-Inference-Hosting abnehmen? nvidia-smi, /api/tags und tokens/s-Baseline mit festem Prompt vor Traffic-Umschaltung.
Managed „run Ollama cloud“ vs. DIY? Managed spart Ops; DIY kontrolliert Daten und Unit Economics. Bei vpszap stellen Sie GPU-Instanzen bereit und führen diese Checkliste auf der Maschine aus.

GPU-Stufe an Modellgröße koppeln — Ollama-Abnahme vor dem Scale-out

vpszap ist eine KI-Entwickler-Infrastruktur-Plattform: neben Cloud-Mac können Sie GPU-VPS / Cloud GPU für LLM-Hosting wählen — RTX-4090-Klasse für 7B–13B-Quants, A100-Klasse für schwerere Gewichte oder mehr parallele Streams. Nach der Bereitstellung ollama pull und /api/tags aus diesem Artikel, dann Instanzen ergänzen, wenn Benchmarks es rechtfertigen. Inferenz nahe Ihrer App platzieren (Singapur, Tokio, Seoul, Hongkong, US Ost/West — siehe Konsole). Start über Preise, Konfigurieren & Bestellen oder die vpszap-Startseite für GPU-VPS und KI-Inferenz — kein GPU-loser Linux-VPS für WordPress.

2026: Ollama & Open-Source-LLMs auf günstigem GPU-VPS — VRAM, CUDA/Docker & API-Kosten FAQ

Wer sollte Ollama auf einem GPU-VPS betreiben (private Inferenz, Compliance, Batch vs. Live-API)

VRAM und Modellgröße (Degradationspfade bei knapper VRAM)

Docker und Bare-Metal-CUDA: zwei Installations-Checklisten

Pfad A: Bare-Metal-Linux + NVIDIA-Treiber (üblicher Produktionsstandard)

Pfad B: Docker + NVIDIA Container Toolkit

Performance und Kosten: tokens/s-Benchmark und Break-even-Rechnung

Leichtgewicht-Benchmark (kopierbar)

Monatskosten-Rahmen (eigene Preise einsetzen)

Produktionshärtung: systemd, Neustarts, Disk, Logs, Rate-Limits

Fehlermatrix (CUDA-Mismatch, OOM, langsame Pulls, offene Ports)

Wann ein günstiger GPU-VPS nicht der Default ist (Grenzen)

FAQ

GPU-Stufe an Modellgröße koppeln — Ollama-Abnahme vor dem Scale-out

GPU-Stufe wählen, Ollama abnehmen, dann skalieren

Sprache wählen / Choose Language