Wer Stable Diffusion XL, Flux.1 und ähnliche Bild-Workflows auf eigener Infrastruktur betreiben will, setzt 2026 meist auf ComfyUI: Node-Graphen versionieren sauber, Custom Nodes sind ausgereift, derselbe GPU-VPS kann Warteschlangen und API-Wrapper hosten. Dieser Leitfaden adressiert cheap GPU VPS / Cloud GPU für ComfyUI-Hosting: entscheiden, ob Self-Host per-Bild-APIs schlägt, VRAM dimensionieren, eine kopierbare CUDA-/Docker-Abnahme-Checkliste durchlaufen und GPU-Monatsmiete mit Midjourney, Replicate und ähnlichen Diensten vergleichen — parametrisiert, ohne erfundene vpszap-Listenpreise.
Wer sollte ComfyUI auf einem GPU-VPS betreiben (private Assets, Batch-Render, Automatisierung vs. Bild-APIs)
Selbst gehostetes ComfyUI auf einem GPU-Server passt, wenn: (1) Marken-Assets, Referenzgesichter und E-Commerce-SKU-Bilder Ihr Perimeter nicht verlassen dürfen — private Bildgenerierung und Audit zählen; (2) tägliche Banner, Poster und A/B-Bildsätze dominieren und Batch-Automatisierung in Warteschlangen laufen kann; (3) feste Workflows (ControlNet, IP-Adapter, LoRA-Stacks) versioniert bleiben müssen statt stiller Upstream-Modellwechsel; (4) n8n oder eigene Pipelines die ComfyUI-HTTP-API aufrufen und monatliche Bildzahlen API-Kosten linear steigen lassen.
Midjourney, Replicate und kommerzielle APIs gewinnen weiter, wenn monatlich nur wenige hundert Bilder anfallen, niemand GPU-Treiber und Modellbibliotheken wartet oder Sie neue geschlossene Ästhetik-Modelle ohne Workflow-Reproduzierbarkeit wollen. Grenze: SD 1.5 in niedriger Auflösung geht auf 12-GB-Karten, aber Vollpräzisions-Flux und gestapeltes ControlNet fressen VRAM schnell — dieser Artikel setzt ComfyUI + NVIDIA-GPU voraus, keinen GPU-losen WordPress-VPS. Fußnote: Läuft auf derselben Maschine zusätzlich Ollama für Prompt-Erweiterung, siehe günstiger GPU-VPS für Ollama (VRAM und Kosten) — nicht mit diesem Bild-Workflow verwechseln.
VRAM vs. Workload-Tabelle (SDXL, Flux, ControlNet, IP-Adapter-Overhead)
Bild-VRAM-Druck kommt von UNet/DiT-Präzision + Text-Encodern + Auflösung + Batch + gestapelten Nodes. Die Tabelle spiegelt übliche Stufen 2026 (eine GPU, ~1024×1024, batch=1); Peaks mit nvidia-smi validieren. Flux ist deutlich größer als SDXL — „8-GB-SD-Ära“-Annahmen nicht übernehmen.
| Workload | Präzision / Form | Empfohlene VRAM (ein Job) | Typische Cloud-SKU | Wenn VRAM knapp ist |
|---|---|---|---|---|
| SDXL Base | FP16 | ≈ 8–10 GB | RTX 3060 12G, L4; 4090 mit Reserve | Auflösung senken; SDXL Turbo; weniger Steps |
| SDXL + ControlNet | ein CN | +3–5 GB | ≥ 16 GB sicherer | Extra-CN aus; serial laden |
| Flux.1 Schnell | FP8 / quant | ≈ 12–16 GB | RTX 4090 24G | GGUF/NF4; niedrigere Auflösung |
| Flux.1 Dev | FP16 | ≈ 22–24 GB+ | RTX 4090 24G (voll), A100 40G | Schnell; FP8 T5; CPU-Offload |
| Flux Dev + IP-Adapter | Referenzbild | ≈ 24 GB+ | 4090 / A100 | Referenz verkleinern; leichterer Adapter |
| Warteschlangen-Parallelität (2+ Jobs) | — | +20–40 % Peak | A100; Multi-Instanz | Serial queue; horizontal skalieren |
RTX-4090-Klasse als günstiger GPU-VPS ist der Sweet Spot für die meisten ComfyUI-GPU-VPS-Teams: 24 GB trägt volle SDXL-Stacks und leichten Flux (FP8/quant) — typisch bei stable diffusion vps und comfyui hosting. A100-Cloud-GPU für Flux Dev Vollpräzision, mehrere ControlNet-Stacks oder ~200+ Bilder/Tag mit Parallelität. Degradation: niedrigere Auflösung → weniger Steps → Schnell/SDXL → quant-Gewichte → Stack-Nodes aus → Queues splitten.
Docker und Bare-Metal: zwei ComfyUI-Installationspfade
Pfad A: Bare-Metal-Linux + NVIDIA-Treiber
- GPU-Instanz bereitstellen; ≥ 200 GB Disk — Checkpoints und LoRA-Bibliotheken wachsen schnell.
- Abnahme mit
nvidia-smi(GPU-Modell, Treiber, VRAM gesamt). git clone https://github.com/comfyanonymous/ComfyUI.git && cd ComfyUI- Python venv + Abhängigkeiten:
pip install -r requirements.txt(laut Repo). - Gewichte: SDXL/Flux in
models/checkpoints, VAE inmodels/vae, LoRA inmodels/loras. - Dev-Start:
python main.py --listen 0.0.0.0 --port 8188; Produktion braucht Reverse Proxy, TLS und Auth — 8188 nicht roh ins Internet. - Custom Nodes:
cd custom_nodes && git clone <repo>; Neustart und Logs auf Import-Fehler prüfen.
Pfad B: Docker + NVIDIA Container Toolkit
nvidia-container-toolkitinstallieren;nvidia-ctk runtime configure --runtime=docker; Docker neu starten.- Beispiel (Image laut gewähltem Community-Dockerfile):
docker run -d --gpus=all -p 8188:8188 -v /data/comfyui/models:/app/models -v /data/comfyui/output:/app/output --name comfyui <image> - Probe: Browser oder
curl http://127.0.0.1:8188/system_stats— GPU sichtbar bestätigen. - Logs:
docker logs -f comfyui; bei OOM zuerst VRAM-Peak im Workflow prüfen.
Volume-Mounts, Healthchecks und „Prozess läuft, WebUI 502“ spiegeln OpenClaw Docker Compose Deployment Troubleshooting — gleiche Schicht-für-Schicht-Mentalität auf Linux-GPU + ComfyUI.
Performance und Kosten: Sekunden/Bild-Benchmark und Break-even vs. Bild-APIs
Leichtgewicht-Benchmark (fester Prompt / Auflösung)
# 1) VRAM-Baseline
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1
# 2) Dasselbe ComfyUI-Workflow-JSON 3× laufen lassen; Wandzeit notieren (Sek/Bild)
# Vorschlag: SDXL 1024×1024 steps=25; Flux Schnell steps=4 (laut Ihren Nodes)
# 3) Queue-API (falls exponiert)
curl -s -X POST http://127.0.0.1:8188/prompt -H "Content-Type: application/json" \
-d '{"prompt":{...}}' # exportiertes Workflow-JSON
Loggen Sie drei Werte: kaltstart erstes Bild, stabile Sekunden/Bild, ob Warteschlangen-Parallelität = 2 OOM auslöst. Vergleiche auf derselben Maschine schlagen öffentliche Rankings.
Monatskosten-Rahmen (eigene Preise einsetzen)
Sei G = GPU-Monatsmiete (oder $/GPU-Stunde × 730), E = Strom/Overhead, S = große Disk für Modellbibliotheken. Bild-API-Ausgaben ≈ N × C, N = monatliche Bilder, C = $/Bild (Midjourney-Abo oder Replicate pro Sekunde/Step in $/Bild umrechnen).
Break-even (grob): Wenn G + E + S < N × C und Auslastung Leerlauf deckt, gewinnt Self-Hosted Stable Diffusion Cloud GPU; sonst APIs — oder Hybrid (API zum Erkunden, ComfyUI für Batch-Finals).
| Szenario | Monatliche Bilder (illustrativ) | Tendenz | Hinweise |
|---|---|---|---|
| Solo-Creator | < 300 | Abo-API oder kurze GPU-Probe | Feste Miete kann leerstehen |
| Kleines Team, ~200/Tag | ≈ 6.000/Monat | Ein 4090 + ComfyUI-Queue gewinnt oft | Nacht-Batch erhöht Auslastung |
| E-Commerce-Poster-Pipeline | 10.000+ | Multi-Instanz + Object Storage | CDN/Disk in S einrechnen |
| Flux Dev FP16 + multi ControlNet | mittel–hoch | A100 + strenge Serial-Queue | OOM und Ops-Kosten steigen |
Platzhalter-Mathe (eigene Angebote): G = 300 $/Monat, N = 2.000 Bilder, API C ≈ 0,05 $/Bild → API ≈ 100 $ — Cash oft für API, ohne Asset-Residenz und Workflow-Lock. Bei N = 8.000, API ≈ 400 $, konkurriert ein günstiger GPU-Server — wenn Sie Treiber, Modellbibliothek und Security betreiben. $/1k Bilder: (G+E+S) / (N/1000) neben API-Tabellen für die Entscheidungsmatrix.
Produktionshärtung: Queue, Disk, systemd, Retries, Logs
- Queue: Ein externer Einstieg; Parallelität auf 1–2 deckeln, um nicht mehrere große Modelle gleichzeitig zu laden und OOM zu riskieren.
- Disk: Alarm wenn
models/oderoutput/unter ~15 % frei — SDXL + Flux Dual-Stacks können Hunderte GB füllen. - systemd:
Restart=on-failure;custom_nodesund Workflow-JSON vor Upgrades sichern. - Logs: Modellname, Auflösung, Steps, Node-Versionen; OOM-Postmortems müssen zum zuletzt geladenen Checkpoint passen.
- Auth: Basic Auth oder OAuth am Reverse Proxy; Port-8188-Scanner sind häufig — nie 0.0.0.0 ohne Schutz binden.
- Retries: API-Schicht gibt bei Timeout 503 und re-queued — UI-Thread nicht endlos blockieren.
Fehlermatrix (CUDA, OOM, Custom Nodes, Modellpfade)
| Symptom | Wahrscheinliche Ursache | Fix-Reihenfolge |
|---|---|---|
nvidia-smi ohne GPU | Treiber fehlt, GPU nicht angehängt | Konsole GPU-SKU → Treiber → Ticket |
| ComfyUI läuft auf CPU | Falsches PyTorch; Container ohne GPU | GPU-Torch-Build; --gpus=all prüfen |
| CUDA out of memory | Flux FP16, mehrere ControlNet, hohe Auflösung | Auflösung → quant → CN aus → SDXL |
| Checkpoint not found | Pfad oder Groß-/Kleinschreibung | models/checkpoints angleichen; Liste aktualisieren |
| Custom-Node-Import scheitert | Node vs. ComfyUI-Version | Nodes einzeln deaktivieren; GitHub-Issues |
| Langsam, GPU 0 % | CPU-Fallback; VAE auf CPU | system_stats; Gewichte auf GPU |
| Öffentliche WebUI missbraucht | 8188 ohne Auth exponiert | Allowlist + Proxy-Auth |
Wann ein günstiger GPU-VPS nicht der Default ist (Grenzen)
- Sehr wenige monatliche Bilder und kein Linux-Betreiber — Zeit über Bild-APIs kaufen statt Treiber.
- Flux Dev FP16 + paralleles ControlNet auf einer 4090 — SKU upgraden, billigste VPS nicht erzwingen.
- Geteiltes vGPU mit aufgeblähtem VRAM — schlägt Abnahme fehl, Tier oder Region wechseln.
- Workflow hängt an unlizenzierten Closed Nodes — Compliance und API-Alternativen gemeinsam prüfen.
FAQ
- ComfyUI vs. Automatic1111 WebUI? ComfyUI für reproduzierbare, API-getriebene Produktion; WebUI für interaktives Ausprobieren. Hosting-Szenarien wählen meist ComfyUI.
- Kann ein RTX-4090-VPS Flux laufen? Quantisierte/Schnell-Stufen meist ja; Dev FP16 braucht volle 24 GB und wenige Stack-Nodes.
- Minimum gpu server for ai art? SDXL: ≥ ~12 GB nutzbare VRAM; Flux-Produktion: 24 GB+; hohe Parallelität: A100-Klasse.
- Wie AI-Bildgenerierungs-Hosting abnehmen?
nvidia-smi, festes Workflow Sekunden/Bild, Queue-OOM-Test vor Cutover. - cloud gpu vs. cheap gpu vps? GPU-Stunden-Pools vs. monatliche ganze Karten — nach 24/7-Dauer vs. Batch wählen.
Weiterführend
Gemeinsame GPU-Stack-Abnahme (Treiber, VRAM, Miet-Mathe): 2026 günstiger GPU-VPS für Ollama. Container-Schichten und Probes: OpenClaw Docker Compose Deployment Troubleshooting.
vpszap-GPU nach Auflösung und Tagesvolumen — ComfyUI-Abnahme vor Scale-out
vpszap ist eine KI-Entwickler-Infrastruktur-Plattform (kein Shared Hosting ohne GPU): GPU-VPS / Cloud GPU nach Zielauflösung, Batch, Flux-Vollpräzision und Queue-Parallelität — RTX-4090-Klasse für SDXL und leichten Flux, A100-Klasse für Dev FP16 oder gestapeltes ControlNet. In Multi-Region-Deployments ComfyUI WebUI/API nahe Designern oder Automatisierung legen. Nach Bereitstellung nvidia-smi, festes Workflow Sekunden/Bild und Queue-Tests aus diesem Artikel, dann parallele Instanzen skalieren. Preise, Konfigurieren & Bestellen, vpszap-Startseite für GPU-VPS und AI-Bildgenerierungs-Hosting — kein GPU-loser VPS für WordPress.