Wer Llama 3, Qwen, Mistral und andere Open-Weights auf eigener Infrastruktur betreiben will, nutzt 2026 oft noch Ollama: Modell ziehen, lokalen OpenAI-kompatiblen Endpunkt /v1 bereitstellen und die dokumentierte Installation unter Linux + NVIDIA CUDA folgen. Dieser Leitfaden adressiert die Suchintention hinter cheap GPU VPS, ollama vps und run ollama cloud: entscheiden, ob ein GPU-Host Token-APIs schlägt, VRAM dimensionieren, eine kopierbare CUDA-/Docker-Abnahme-Checkliste durchlaufen und GPU-Monatsmiete mit API-Rechnungen vergleichen — mit einer parametrisierten Formel, ohne erfundene vpszap-Listenpreise.
Wer sollte Ollama auf einem GPU-VPS betreiben (private Inferenz, Compliance, Batch vs. Live-API)
Selbst gehostetes Ollama auf einem GPU-Server passt, wenn: (1) Prompts oder Trainingsdaten Ihr Perimeter nicht verlassen dürfen — private Inferenz und Audit-Trails zählen; (2) nachts und am Wochenende große Summarisierungs-, Labeling- oder RAG-Indexierungsjobs laufen und Offline-Batch günstiger ist als Bezahlung pro Request; (3) ein festes Set interner Dienste (grob 3–20 gleichzeitige Aufrufer) dasselbe Modell trifft und API-Kosten monatlich linear steigen; (4) Sie Modellversionen und Quantisierungsstufen (Q4_K_M, Q5 usw.) pinnen müssen statt stiller Upstream-Wechsel.
Kommerzielle Token-APIs gewinnen weiter, wenn Spitzen unvorhersehbar sind, Sie die neuesten geschlossenen Modelle brauchen oder niemand Treiber und Disks wartet. Bei sehr geringem Monatsvolumen (z. B. unter ~5M Token) und lockerer Latenz kann eine feste GPU-Miete die meiste Zeit leerstehen. Grenze: CPU-only-Kleinst-Quants auf einem günstigen VPS ohne GPU sind möglich, aber Kontextlänge und tokens/s brechen ein — dieser Artikel setzt Ollama + NVIDIA-GPU voraus.
VRAM und Modellgröße (Degradationspfade bei knapper VRAM)
Dimensionierung ist nicht „Parameter ÷ 2“. Kalkulieren Sie Parameter × Quant-Bits + KV-Cache, der mit Kontextlänge und parallelen Sessions wächst. Die Tabelle unten spiegelt übliche Inferenz-Stufen 2026 (eine Instanz, ~8k Kontext); validieren Sie mit nvidia-smi auf Ihrem Host.
| Modellskala | Typische Quant | Empfohlene VRAM (ein Stream) | Typische Cloud-SKU | Wenn VRAM nicht reicht |
|---|---|---|---|---|
| 7B (Llama 3, Qwen 2.5 usw.) | Q4_K_M | ≈ 6–8 GB | RTX 3060 12G, T4; RTX 4090 mit Reserve | Q3 oder kürzerer Kontext; weniger parallele Requests |
| 7B | Q8 / teilweise FP16 | ≈ 10–14 GB | RTX 3080/4080, L4 | Auf Q4 wechseln; überflüssige Adapter entfernen |
| 13B | Q4_K_M | ≈ 10–12 GB | RTX 4090 24G, A10 24G | 7B-Distill; Offline-Batch |
| 34B–40B | Q4 | ≈ 22–26 GB | RTX 4090 24G (knapp), A100 40G | 13B; Multi-GPU (abhängig von Ollama-Version) |
| 70B | Q4_K_M | ≈ 40–48 GB+ | A100 80G, H100, Multi-GPU | 34B oder geteilte Pipeline; API für Spitzen |
RTX-4090-Klasse als günstiger GPU-VPS ist meist der Sweet Spot für 7B–13B-Quants. A100-/H100-Cloud-GPU-Stufen gehören zu 70B, langem Kontext oder höherer Parallelität. Degradationsreihenfolge: weniger Parallelität → kürzerer Kontext → kleinere Quant → kleineres Modell → Batch-Jobs aufteilen — nicht zuerst die größten Gewichte starten und in OOM-Schleifen landen.
Docker und Bare-Metal-CUDA: zwei Installations-Checklisten
Pfad A: Bare-Metal-Linux + NVIDIA-Treiber (üblicher Produktionsstandard)
- Nach Bereitstellung der GPU-Instanz per SSH einloggen; ≥ 80 GB Disk einplanen — Modell-Cache wächst schnell.
- NVIDIA-Treiber installieren; mit
nvidia-smiabnehmen (GPU-Name, Treiberversion, VRAM gesamt). - Ollama laut Doku:
curl -fsSL https://ollama.com/install.sh | sh, dannsudo systemctl enable --now ollama(Unit-Name kann variieren). - Modell ziehen:
ollama pull qwen2.5:7b-instruct-q4_K_M(Tag laut Bibliothek). - Health:
curl -s http://127.0.0.1:11434/api/tagsliefert JSON; nach außen nur hinter TLS und Auth. - OpenAI-kompatibler Probe:
curl http://127.0.0.1:11434/v1/models.
Pfad B: Docker + NVIDIA Container Toolkit
nvidia-container-toolkitinstallieren,sudo nvidia-ctk runtime configure --runtime=docker, Docker neu starten.- Start:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama(Tag auf Docker Hub prüfen). - Im Container:
docker exec -it ollama ollama run llama3.2. - Gleiche Checks:
curl http://127.0.0.1:11434/api/tags; Logs viadocker logs -f ollama.
Wer Container-Stacks auf einem Gateway-Host debuggt, überträgt die Schicht-für-Schicht-Gesundheitsprüfung aus OpenClaw Docker Compose Deployment Troubleshooting gut auf Linux-GPU + Ollama (Volumes, Probes, „Prozess läuft, Handshake scheitert“).
Performance und Kosten: tokens/s-Benchmark und Break-even-Rechnung
Leichtgewicht-Benchmark (kopierbar)
# 1) VRAM-Baseline
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1
# 2) Gestreamter Lauf — tokens/s abschätzen (eigenen Modellnamen verwenden)
time ollama run qwen2.5:7b-instruct-q4_K_M "Liste in 200 Wörtern eine Abnahme-Checkliste für AI-Inference-Hosting."
# 3) HTTP-Smoke (hey oder wrk installieren; zuerst Rate limitieren)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
-d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
http://127.0.0.1:11434/api/generate
Notieren Sie drei Werte für Ihre Entscheidungsmatrix: Zeit bis zum ersten Token, stabile tokens/s und ob Parallelität = 2 OOM auslöst. Relative Vergleiche auf derselben Maschine zählen mehr als öffentliche Rankings.
Monatskosten-Rahmen (eigene Preise einsetzen)
Sei G = monatliche GPU-Host-Miete (oder $/GPU-Stunde × 730), E = Strom/Colocation bei Self-Hosting, A = Ops-Aufschlag (optional). API-Ausgaben ≈ T × P, wobei T monatliche Token (Input/Output getrennt, falls getrennt tarifiert) und P der $/1M-Token des Anbieters laut aktueller öffentlicher Seiten ist.
Break-even (grob): Wenn G + E + A < T × P und die GPU ausgelastet bleibt, lohnt Self-Hosting; sonst APIs — oder Hybrid (API für Spitzen, Ollama für Täler).
| Szenario | Monatliche Token (illustrativ) | Tendenz | Hinweise |
|---|---|---|---|
| Solo-Entwickler | < 3M | API oder kurze 4090-Miete zum Test | Feste Miete kann leerstehen |
| 3-köpfiges Produktteam | 20M–80M | Ein 4090 + Ollama gewinnt oft | Nacht-Batch erhöht Auslastung |
| Nacht-Batch (~8h/Tag) | elastisch | GPU-Stunden-Abrechnung kann 24/7 schlagen | Tagsüber abschalten |
| 70B + langer Kontext | hoch | A100-Stufe + strenge Parallelitätslimits | OOM und API-Rechnungen tun beide weh |
Beispiel-Platzhalter (durch eigene Angebote ersetzen): bei G = 280 $/Monat für Cloud-GPU der 4090-Klasse, T = 50M Token, gemischtes P ≈ 0,6 $/1M, API ≈ 30 $ — die API wirkt günstiger in Cash, schließt aber Datenresidenz und Versionskontrolle aus. Bei T = 500M, API ≈ 300 $, beginnt Self-Hosting zu konkurrieren — wenn Sie Treiber, Disks und Security betreiben. Für Multi-Provider-Routing (Ollama bleibt Inferenz-Kern) siehe OpenClaw Multi-Provider-Konfiguration und Failover. Regionale Latenz-Entscheidungen für verteilte Teams finden Sie in der Entscheidungsmatrix Cloud-Mac 2026 (Latenz & Regionen).
Produktionshärtung: systemd, Neustarts, Disk, Logs, Rate-Limits
- systemd:
Restart=on-failure; Ollama vor Upgrades stoppen, um halbgeschriebene Blobs zu vermeiden. - Disk: Alarm, wenn
/var/lib/ollamaoder Docker-Volume unter ~15 % frei — parallele Pulls füllen schnell. - Logs: Journal oder
docker logsrotieren; Modell-Tag, Quant und Parallelität für OOM-Postmortems festhalten. - Rate-Limits: QPS und Body-Größe auf
/v1/chat/completionsam Reverse-Proxy deckeln; 11434 nie auf 0.0.0.0 ohne Auth. - Config as Code: Modell-Cache aus Pulls neu aufbauen; Modelfiles und Policy in Git.
GPU-VPS bedeutet meist nur SSH — kein VNC. Bastion und Port-Forwarding für Admin-Endpunkte einplanen, analog zum Absichern eines Build-Hosts.
Fehlermatrix (CUDA-Mismatch, OOM, langsame Pulls, offene Ports)
| Symptom | Wahrscheinliche Ursache | Fix-Reihenfolge |
|---|---|---|
nvidia-smi ohne GPU | Treiber fehlt, GPU nicht angehängt, Reboot nötig | GPU-SKU in Konsole → Treiber neu → Provider-Ticket |
| Keine GPU im Container | Toolkit fehlt, kein --gpus=all | nvidia-ctk configure → Docker neu starten |
| CUDA-Versions-Mismatch in Logs | Treiber vs. Runtime-Bibliotheken | Host-Treiber angleichen; offiziellen ollama/ollama-Tag pinnen |
| OOM / Prozess gekillt | Modell zu groß, Parallelität, langer Kontext | Parallelität senken → Kontext kürzen → Q4 → 7B |
Langsamer ollama pull | Grenzüberschreitende Bandbreite, langsame Disk | Pulls außerhalb Peak; größere Disk; konformer Mirror falls erlaubt |
| Gescanntes offenes 11434 | Öffentliches Binding 0.0.0.0 | Security-Group-Allowlist; API-Key oder mTLS |
Fußnote: Teams mit Continuous Batching und Hot-LoRA-Swaps evaluieren manchmal separat vLLM. Dieser Artikel bleibt bei Ollama wegen Installationsfläche und /v1-Kompatibilität für kleine und mittlere Teams.
Wann ein günstiger GPU-VPS nicht der Default ist (Grenzen)
- Sehr wenige monatliche Token und kein Linux-Betreiber — Zeit über APIs kaufen statt Treiber.
- 70B volle Präzision oder schweres Multimodal — eine 4090 reicht nicht; billigste SKU nicht erzwingen.
- Angekündigte VRAM passt nicht zu
nvidia-smi— SKU oder Region wechseln, nicht Prompts um Betrug herum optimieren. - Compliance verlangt dedizierte Hardware-Attestierungen — Verträge und Logging prüfen, nicht nur $/Stunde.
FAQ
- Günstiger GPU-Server vs. Cloud GPU? VPS-artige Einzelkarten-Miete vs. GPU-Stunden-Pools. Wählen nach Bedarf 24/7 oder intermittierendem Batch.
- Kann Ollama OpenAI vollständig ersetzen? Für Open Weights und tolerante Latenz auf internen Tools oft ja; für neueste geschlossene Modelle oder strenge SLA API-Kapazität behalten.
- Minimum für lokales LLM-Deployment? 7B Q4 will ≥ ~8 GB nutzbare VRAM; in Produktion oft 24 GB Reserve für KV und Parallelität.
- Wie AI-Inference-Hosting abnehmen?
nvidia-smi,/api/tagsund tokens/s-Baseline mit festem Prompt vor Traffic-Umschaltung. - Managed „run Ollama cloud“ vs. DIY? Managed spart Ops; DIY kontrolliert Daten und Unit Economics. Bei vpszap stellen Sie GPU-Instanzen bereit und führen diese Checkliste auf der Maschine aus.
GPU-Stufe an Modellgröße koppeln — Ollama-Abnahme vor dem Scale-out
vpszap ist eine KI-Entwickler-Infrastruktur-Plattform: neben Cloud-Mac können Sie GPU-VPS / Cloud GPU für LLM-Hosting wählen — RTX-4090-Klasse für 7B–13B-Quants, A100-Klasse für schwerere Gewichte oder mehr parallele Streams. Nach der Bereitstellung ollama pull und /api/tags aus diesem Artikel, dann Instanzen ergänzen, wenn Benchmarks es rechtfertigen. Inferenz nahe Ihrer App platzieren (Singapur, Tokio, Seoul, Hongkong, US Ost/West — siehe Konsole). Start über Preise, Konfigurieren & Bestellen oder die vpszap-Startseite für GPU-VPS und KI-Inferenz — kein GPU-loser Linux-VPS für WordPress.