← Назад в блог разработчиков AI-инференс

2026: Ollama и open-source LLM на недорогом GPU VPS — VRAM, CUDA/Docker и сравнение с API FAQ

📅 21 мая 2026 г. · 10 мин · VRAM, чек-лист CUDA/Docker и точка безубыточности GPU против API

Если вам нужны Llama 3, Qwen, Mistral и другие открытые веса на инфраструктуре под вашим контролем, в 2026 году один из самых простых путей по-прежнему — Ollama: скачать модель, поднять локальный OpenAI-совместимый эндпоинт /v1 и следовать документированной установке Linux + NVIDIA CUDA. Этот материал закрывает запросы вроде cheap GPU VPS и run Ollama cloud: понять, выгоднее ли GPU-хост, чем API по токенам, подобрать VRAM, пройти копируемый чек-лист приёмки CUDA / Docker и сравнить месячную аренду GPU с счетами за токены — по параметрической формуле, без выдуманных прайсов vpszap.

Серверные стойки в дата-центре — метафора инференса Ollama и открытых LLM на дешёвом GPU VPS

Кому подходит Ollama на GPU VPS (приватный инференс, комплаенс, пакетная обработка vs живой API)

Свой Ollama на GPU-сервере уместен, когда: (1) промпты и обучающие данные не должны покидать ваш периметр — важны приватный инференс и аудит; (2) ночью и в выходные идут крупные задачи суммаризации, разметки или индексации RAG, где офлайн-пакеты выгоднее оплаты за каждый запрос; (3) фиксированный набор внутренних сервисов (порядка 3–20 одновременных клиентов) бьёт в одну модель, и расходы на API растут линейно каждый месяц; (4) нужны зафиксированные версии моделей и уровни квантования (Q4_K_M, Q5 и т.д.), а не тихие замены upstream.

Коммерческие API по токенам всё ещё выигрывают, когда пики непредсказуемы, нужны новейшие закрытые модели или некому поддерживать драйверы и диски. При очень малом месячном объёме (например, меньше ~5M токенов) и мягких требованиях к задержке постоянная аренда GPU простаивает. Граница: крошечные кванты только на CPU можно попробовать на дешёвом VPS без GPU, но длина контекста и tokens/s рушатся — в этой статье предполагается Ollama + NVIDIA GPU.

VRAM и размер модели (пути деградации при нехватке памяти)

Подбор — не «параметры ÷ 2». Закладывайте параметры × биты квантования + KV-кэш, который растёт с длиной контекста и числом параллельных сессий. Таблица ниже отражает типичные уровни инференса 2026 (один инстанс, контекст ~8k); проверяйте на хосте через nvidia-smi.

Масштаб моделиТипичное квант.Реком. VRAM (один поток)Типичный cloud SKUЕсли VRAM не хватает
7B (Llama 3, Qwen 2.5 и др.)Q4_K_M≈ 6–8 ГБRTX 3060 12G, T4; у RTX 4090 запасQ3 или короче контекст; меньше параллельных запросов
7BQ8 / частичный FP16≈ 10–14 ГБRTX 3080/4080, L4Перейти на Q4; убрать лишние адаптеры
13BQ4_K_M≈ 10–12 ГБRTX 4090 24G, A10 24GДистиллят 7B; пакеты офлайн
34B–40BQ4≈ 22–26 ГБRTX 4090 24G (впритык), A100 40G13B; multi-GPU (зависит от версии Ollama)
70BQ4_K_M≈ 40–48 ГБ+A100 80G, H100, multi-GPU34B или разбитый pipeline; API на пики

Дешёвый GPU VPS класса RTX 4090 — обычная точка для квантов 7B–13B. Уровни A100 / H100 Cloud GPU — для 70B, длинного контекста или высокой параллельности. Порядок деградации: меньше параллелизма → короче контекст → мельче квант → меньше модель → разнести пакетные задачи — не запускайте сразу самые тяжёлые веса и не крутитесь в OOM.

Схема: Сингапур, Токио, Сеул, Гонконг, восток и запад США — эндпоинт Ollama ближе к вызывающим системам.
AI inference hosting: ставьте эндпоинт Ollama ближе к приложению, а не только в самый дешёвый регион

Docker и «голый» CUDA: два чек-листа установки

Путь A: Linux на железе + драйвер NVIDIA (типичный прод по умолчанию)

  • После выдачи GPU-инстанса зайдите по SSH; заложите ≥ 80 ГБ диска — кэш моделей быстро растёт.
  • Установите драйвер NVIDIA; примите через nvidia-smi (имя GPU, версия драйвера, суммарная VRAM).
  • Установите Ollama по доке: curl -fsSL https://ollama.com/install.sh | sh, затем sudo systemctl enable --now ollama (имя unit может отличаться).
  • Скачайте модель: ollama pull qwen2.5:7b-instruct-q4_K_M (тег по каталогу).
  • Здоровье: curl -s http://127.0.0.1:11434/api/tags возвращает JSON; наружу — только за TLS и аутентификацией.
  • Проверка OpenAI-совместимости: curl http://127.0.0.1:11434/v1/models.

Путь B: Docker + NVIDIA Container Toolkit

  • Установите nvidia-container-toolkit, выполните sudo nvidia-ctk runtime configure --runtime=docker, перезапустите Docker.
  • Старт: docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama (тег сверьте на Docker Hub).
  • Внутри контейнера: docker exec -it ollama ollama run llama3.2.
  • Те же проверки: curl http://127.0.0.1:11434/api/tags; логи — docker logs -f ollama.

Если вы уже отлаживаете контейнерные стеки на шлюзе, многоуровневый подход к health-check из развёртывания и устранения неполадок OpenClaw в Docker Compose хорошо переносится на Linux GPU + Ollama (тома, пробы, «процесс жив, но handshake падает»).

Производительность и стоимость: benchmark tokens/s и математика точки безубыточности

Лёгкий benchmark (копировать-вставить)

# 1) Базовая VRAM
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1

# 2) Потоковый прогон — оцените tokens/s (имя вашей модели)
time ollama run qwen2.5:7b-instruct-q4_K_M "In 200 words, list an AI inference hosting acceptance checklist."

# 3) HTTP-smoke (установите hey или wrk; сначала лимитируйте RPS)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
  -d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
  http://127.0.0.1:11434/api/generate

Зафиксируйте три числа для матрицы решений: время до первого токена, устойчивые tokens/s и даёт ли concurrency = 2 OOM. Сравнение на одной машине важнее заявлений из лидербордов.

Каркас месячных затрат (подставьте свои цены)

Пусть G = месячная аренда GPU (или $/GPU-час × 730), E = электричество/колокация при своём железе, A = накладные на эксплуатацию (опционально). Расход на API ≈ T × P, где T — токены в месяц (вход/выход считайте отдельно, если тариф раздельный), P — $/1M токенов у вендора по актуальным публичным страницам.

Точка безубыточности (грубо): когда G + E + A < T × P и GPU загружен, self-host притягивает; иначе оставляйте API — или гибрид (API на пики, Ollama на провалы).

СценарийТокены/мес (иллюстрация)СклонностьЗаметки
Один разработчик< 3MAPI или краткая аренда 4090Фиксированная аренда простаивает
Команда из 3 человек20M–80MОдин 4090 + Ollama часто выигрываетНочные пакеты поднимают утилизацию
Ночной пакет (~8 ч/сут)ЭластичноОплата GPU-часами может быть выгоднее 24/7Днём выключать
70B + длинный контекстВысокийУровень A100 + жёсткий лимит параллелизмаБольно и OOM, и счета API

Пример-заглушки (замените своими котировками): при G = $280/мес за Cloud GPU класса 4090, T = 50M токенов, смешанное P ≈ $0.6/1M, API ≈ $30 — по деньгам API дешевле, но без учёта резидентности данных и контроля версий. При T = 500M API ≈ $300, self-host начинает конкурировать — если готовы вести драйверы, диски и безопасность. Про маршрутизацию нескольких провайдеров (с Ollama в ядре инференса) см. мультипровайдерную конфигурацию OpenClaw и failover.

Продакшен: systemd, перезапуски, диск, логи, лимиты

  • systemd: Restart=on-failure; перед обновлением останавливайте Ollama, чтобы не оставить полузаписанные blob.
  • Диск: алерт, когда /var/lib/ollama или Docker-том < ~15% свободного; параллельные pull быстро забивают диск.
  • Логи: ротация journal или docker logs; в постмортеме OOM фиксируйте тег модели, квант и параллелизм.
  • Лимиты: ограничьте QPS и размер тела на /v1/chat/completions на reverse proxy; не открывайте 11434 на 0.0.0.0 без auth.
  • Config as code: кэш моделей восстанавливайте из pull; Modelfile и политику держите в Git.

GPU VPS обычно только SSH — без VNC. Заложите bastion и port forwarding для админ-эндпоинтов, как на build-хосте.

Матрица ошибок (CUDA, OOM, медленный pull, открытый порт)

СимптомВероятная причинаПорядок исправления
nvidia-smi не видит GPUНет драйвера, GPU не привязан, нужна перезагрузкаSKU GPU в консоли → переустановка драйвера → тикет провайдеру
В контейнере нет GPUНет toolkit, нет --gpus=allnvidia-ctk configure → перезапуск Docker
Логи несовпадения CUDAДрайвер vs runtimeВыровнять драйвер хоста; зафиксировать тег ollama/ollama
OOM / процесс убитСлишком большая модель, параллелизм, длинный контекстМеньше параллелизма → короче контекст → Q4 → 7B
Медленный ollama pullТрансграничный канал, медленный дискPull вне пика; больший диск; зеркало, если разрешено
Сканируют открытый 11434Публичный bind 0.0.0.0Allowlist в security group; API key или mTLS

Сноска: командам с continuous batching и горячей сменой LoRA иногда отдельно смотрят vLLM. Эта статья остаётся на Ollama — про простую установку и совместимость /v1 для малых и средних команд.

Когда дешёвый GPU VPS — плохой выбор по умолчанию (границы)

  • Очень мало токенов в месяц и нет Linux-оператора — покупайте время у API, а не драйверы.
  • 70B в полной точности или тяжёлый мультимодал — одного 4090 мало; не насилуйте самый дешёвый SKU.
  • Заявленная VRAM не сходится с nvidia-smi — меняйте SKU или регион, не подгоняйте промпты под обман.
  • Комплаенс требует аттестации выделенного железа — проверяйте договор и логи, а не только $/час.

FAQ

  • Дешёвый GPU server vs Cloud GPU? Аренда одной карты в стиле VPS vs пулы GPU-часов. Выбирайте по нужде 24/7 или прерывистых пакетов.
  • Может ли Ollama полностью заменить OpenAI? Для открытых весов и мягкой задержки во внутренних инструментах — часто да; для новейших закрытых моделей или жёсткого SLA — держите ёмкость API.
  • Минимум для локального LLM? 7B Q4 хочет ≥ ~8 ГБ полезной VRAM; в проде обычно нужен запас 24 ГБ под KV и параллелизм.
  • Как принять AI inference hosting? nvidia-smi, /api/tags и базовый tokens/s на фиксированном промпте до переключения трафика.
  • Управляемый «run Ollama cloud» vs DIY? Managed экономит ops; DIY контролирует данные и unit economics. На vpszap вы поднимаете GPU-инстансы и проходите этот чек-лист на машине.

Подберите уровень GPU под модель — приёмка Ollama до масштабирования

vpszap — платформа инфраструктуры для AI-разработчиков: помимо облачного Mac доступны GPU VPS / Cloud GPU для llm hosting — класс RTX 4090 под кванты 7B–13B, класс A100 под более тяжёлые веса или выше параллелизм. После выдачи инстанса выполните ollama pull и /api/tags из этой статьи, затем добавляйте узлы, когда benchmark это оправдает. Ставьте инференс ближе к приложению (Сингапур, Токио, Сеул, Гонконг, восток/запад США — см. консоль). Начните с Тарифов, оформления заказа или главной vpszap для GPU VPS и AI inference hosting — не Linux VPS без GPU под WordPress.

vpszap

Уровень GPU, чек-лист Ollama — затем масштаб

RTX 4090 для квантов 7B–13B; A100 для более тяжёлых весов или выше параллелизм. Базовый /api/tags и tokens/s до боевого трафика.