2026: Ollama и open-source LLM на недорогом GPU VPS — VRAM, CUDA/Docker и сравнение с API FAQ

Если вам нужны Llama 3, Qwen, Mistral и другие открытые веса на инфраструктуре под вашим контролем, в 2026 году один из самых простых путей по-прежнему — Ollama: скачать модель, поднять локальный OpenAI-совместимый эндпоинт /v1 и следовать документированной установке Linux + NVIDIA CUDA. Этот материал закрывает запросы вроде cheap GPU VPS и run Ollama cloud: понять, выгоднее ли GPU-хост, чем API по токенам, подобрать VRAM, пройти копируемый чек-лист приёмки CUDA / Docker и сравнить месячную аренду GPU с счетами за токены — по параметрической формуле, без выдуманных прайсов vpszap.

Серверные стойки в дата-центре — метафора инференса Ollama и открытых LLM на дешёвом GPU VPS

Кому подходит Ollama на GPU VPS (приватный инференс, комплаенс, пакетная обработка vs живой API)

Свой Ollama на GPU-сервере уместен, когда: (1) промпты и обучающие данные не должны покидать ваш периметр — важны приватный инференс и аудит; (2) ночью и в выходные идут крупные задачи суммаризации, разметки или индексации RAG, где офлайн-пакеты выгоднее оплаты за каждый запрос; (3) фиксированный набор внутренних сервисов (порядка 3–20 одновременных клиентов) бьёт в одну модель, и расходы на API растут линейно каждый месяц; (4) нужны зафиксированные версии моделей и уровни квантования (Q4_K_M, Q5 и т.д.), а не тихие замены upstream.

Коммерческие API по токенам всё ещё выигрывают, когда пики непредсказуемы, нужны новейшие закрытые модели или некому поддерживать драйверы и диски. При очень малом месячном объёме (например, меньше ~5M токенов) и мягких требованиях к задержке постоянная аренда GPU простаивает. Граница: крошечные кванты только на CPU можно попробовать на дешёвом VPS без GPU, но длина контекста и tokens/s рушатся — в этой статье предполагается Ollama + NVIDIA GPU.

Заметка: в документации Ollama описаны ollama serve, ollama pull и OpenAI-совместимый /v1 на Linux. Теги драйверов и Docker меняются — перед миграцией сверьтесь с Ollama on Linux и Ollama Docker.

VRAM и размер модели (пути деградации при нехватке памяти)

Подбор — не «параметры ÷ 2». Закладывайте параметры × биты квантования + KV-кэш, который растёт с длиной контекста и числом параллельных сессий. Таблица ниже отражает типичные уровни инференса 2026 (один инстанс, контекст ~8k); проверяйте на хосте через nvidia-smi.

Масштаб модели	Типичное квант.	Реком. VRAM (один поток)	Типичный cloud SKU	Если VRAM не хватает
7B (Llama 3, Qwen 2.5 и др.)	Q4_K_M	≈ 6–8 ГБ	RTX 3060 12G, T4; у RTX 4090 запас	Q3 или короче контекст; меньше параллельных запросов
7B	Q8 / частичный FP16	≈ 10–14 ГБ	RTX 3080/4080, L4	Перейти на Q4; убрать лишние адаптеры
13B	Q4_K_M	≈ 10–12 ГБ	RTX 4090 24G, A10 24G	Дистиллят 7B; пакеты офлайн
34B–40B	Q4	≈ 22–26 ГБ	RTX 4090 24G (впритык), A100 40G	13B; multi-GPU (зависит от версии Ollama)
70B	Q4_K_M	≈ 40–48 ГБ+	A100 80G, H100, multi-GPU	34B или разбитый pipeline; API на пики

Дешёвый GPU VPS класса RTX 4090 — обычная точка для квантов 7B–13B. Уровни A100 / H100 Cloud GPU — для 70B, длинного контекста или высокой параллельности. Порядок деградации: меньше параллелизма → короче контекст → мельче квант → меньше модель → разнести пакетные задачи — не запускайте сразу самые тяжёлые веса и не крутитесь в OOM.

Схема: Сингапур, Токио, Сеул, Гонконг, восток и запад США — эндпоинт Ollama ближе к вызывающим системам. — AI inference hosting: ставьте эндпоинт Ollama ближе к приложению, а не только в самый дешёвый регион

Docker и «голый» CUDA: два чек-листа установки

Путь A: Linux на железе + драйвер NVIDIA (типичный прод по умолчанию)

После выдачи GPU-инстанса зайдите по SSH; заложите ≥ 80 ГБ диска — кэш моделей быстро растёт.
Установите драйвер NVIDIA; примите через nvidia-smi (имя GPU, версия драйвера, суммарная VRAM).
Установите Ollama по доке: curl -fsSL https://ollama.com/install.sh | sh, затем sudo systemctl enable --now ollama (имя unit может отличаться).
Скачайте модель: ollama pull qwen2.5:7b-instruct-q4_K_M (тег по каталогу).
Здоровье: curl -s http://127.0.0.1:11434/api/tags возвращает JSON; наружу — только за TLS и аутентификацией.
Проверка OpenAI-совместимости: curl http://127.0.0.1:11434/v1/models.

Путь B: Docker + NVIDIA Container Toolkit

Установите nvidia-container-toolkit, выполните sudo nvidia-ctk runtime configure --runtime=docker, перезапустите Docker.
Старт: docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama (тег сверьте на Docker Hub).
Внутри контейнера: docker exec -it ollama ollama run llama3.2.
Те же проверки: curl http://127.0.0.1:11434/api/tags; логи — docker logs -f ollama.

Если вы уже отлаживаете контейнерные стеки на шлюзе, многоуровневый подход к health-check из развёртывания и устранения неполадок OpenClaw в Docker Compose хорошо переносится на Linux GPU + Ollama (тома, пробы, «процесс жив, но handshake падает»).

Дрейф версий: если nvidia-smi на хосте ок, а в контейнере GPU нет — вероятно расхождение toolkit/runtime; сверяйтесь с актуальной документацией NVIDIA и Ollama, а не с заученным номером сборки CUDA.

Производительность и стоимость: benchmark tokens/s и математика точки безубыточности

Лёгкий benchmark (копировать-вставить)

# 1) Базовая VRAM
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1

# 2) Потоковый прогон — оцените tokens/s (имя вашей модели)
time ollama run qwen2.5:7b-instruct-q4_K_M "In 200 words, list an AI inference hosting acceptance checklist."

# 3) HTTP-smoke (установите hey или wrk; сначала лимитируйте RPS)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
  -d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
  http://127.0.0.1:11434/api/generate

Зафиксируйте три числа для матрицы решений: время до первого токена, устойчивые tokens/s и даёт ли concurrency = 2 OOM. Сравнение на одной машине важнее заявлений из лидербордов.

Каркас месячных затрат (подставьте свои цены)

Пусть G = месячная аренда GPU (или $/GPU-час × 730), E = электричество/колокация при своём железе, A = накладные на эксплуатацию (опционально). Расход на API ≈ T × P, где T — токены в месяц (вход/выход считайте отдельно, если тариф раздельный), P — $/1M токенов у вендора по актуальным публичным страницам.

Точка безубыточности (грубо): когда G + E + A < T × P и GPU загружен, self-host притягивает; иначе оставляйте API — или гибрид (API на пики, Ollama на провалы).

Сценарий	Токены/мес (иллюстрация)	Склонность	Заметки
Один разработчик	< 3M	API или краткая аренда 4090	Фиксированная аренда простаивает
Команда из 3 человек	20M–80M	Один 4090 + Ollama часто выигрывает	Ночные пакеты поднимают утилизацию
Ночной пакет (~8 ч/сут)	Эластично	Оплата GPU-часами может быть выгоднее 24/7	Днём выключать
70B + длинный контекст	Высокий	Уровень A100 + жёсткий лимит параллелизма	Больно и OOM, и счета API

Пример-заглушки (замените своими котировками): при G = $280/мес за Cloud GPU класса 4090, T = 50M токенов, смешанное P ≈ $0.6/1M, API ≈ $30 — по деньгам API дешевле, но без учёта резидентности данных и контроля версий. При T = 500M API ≈ $300, self-host начинает конкурировать — если готовы вести драйверы, диски и безопасность. Про маршрутизацию нескольких провайдеров (с Ollama в ядре инференса) см. мультипровайдерную конфигурацию OpenClaw и failover.

Продакшен: systemd, перезапуски, диск, логи, лимиты

systemd: Restart=on-failure; перед обновлением останавливайте Ollama, чтобы не оставить полузаписанные blob.
Диск: алерт, когда /var/lib/ollama или Docker-том < ~15% свободного; параллельные pull быстро забивают диск.
Логи: ротация journal или docker logs; в постмортеме OOM фиксируйте тег модели, квант и параллелизм.
Лимиты: ограничьте QPS и размер тела на /v1/chat/completions на reverse proxy; не открывайте 11434 на 0.0.0.0 без auth.
Config as code: кэш моделей восстанавливайте из pull; Modelfile и политику держите в Git.

GPU VPS обычно только SSH — без VNC. Заложите bastion и port forwarding для админ-эндпоинтов, как на build-хосте.

Матрица ошибок (CUDA, OOM, медленный pull, открытый порт)

Симптом	Вероятная причина	Порядок исправления
`nvidia-smi` не видит GPU	Нет драйвера, GPU не привязан, нужна перезагрузка	SKU GPU в консоли → переустановка драйвера → тикет провайдеру
В контейнере нет GPU	Нет toolkit, нет `--gpus=all`	`nvidia-ctk configure` → перезапуск Docker
Логи несовпадения CUDA	Драйвер vs runtime	Выровнять драйвер хоста; зафиксировать тег `ollama/ollama`
OOM / процесс убит	Слишком большая модель, параллелизм, длинный контекст	Меньше параллелизма → короче контекст → Q4 → 7B
Медленный `ollama pull`	Трансграничный канал, медленный диск	Pull вне пика; больший диск; зеркало, если разрешено
Сканируют открытый 11434	Публичный bind 0.0.0.0	Allowlist в security group; API key или mTLS

Сноска: командам с continuous batching и горячей сменой LoRA иногда отдельно смотрят vLLM. Эта статья остаётся на Ollama — про простую установку и совместимость /v1 для малых и средних команд.

Когда дешёвый GPU VPS — плохой выбор по умолчанию (границы)

Очень мало токенов в месяц и нет Linux-оператора — покупайте время у API, а не драйверы.
70B в полной точности или тяжёлый мультимодал — одного 4090 мало; не насилуйте самый дешёвый SKU.
Заявленная VRAM не сходится с nvidia-smi — меняйте SKU или регион, не подгоняйте промпты под обман.
Комплаенс требует аттестации выделенного железа — проверяйте договор и логи, а не только $/час.

FAQ

Дешёвый GPU server vs Cloud GPU? Аренда одной карты в стиле VPS vs пулы GPU-часов. Выбирайте по нужде 24/7 или прерывистых пакетов.
Может ли Ollama полностью заменить OpenAI? Для открытых весов и мягкой задержки во внутренних инструментах — часто да; для новейших закрытых моделей или жёсткого SLA — держите ёмкость API.
Минимум для локального LLM? 7B Q4 хочет ≥ ~8 ГБ полезной VRAM; в проде обычно нужен запас 24 ГБ под KV и параллелизм.
Как принять AI inference hosting? nvidia-smi, /api/tags и базовый tokens/s на фиксированном промпте до переключения трафика.
Управляемый «run Ollama cloud» vs DIY? Managed экономит ops; DIY контролирует данные и unit economics. На vpszap вы поднимаете GPU-инстансы и проходите этот чек-лист на машине.

Подберите уровень GPU под модель — приёмка Ollama до масштабирования

vpszap — платформа инфраструктуры для AI-разработчиков: помимо облачного Mac доступны GPU VPS / Cloud GPU для llm hosting — класс RTX 4090 под кванты 7B–13B, класс A100 под более тяжёлые веса или выше параллелизм. После выдачи инстанса выполните ollama pull и /api/tags из этой статьи, затем добавляйте узлы, когда benchmark это оправдает. Ставьте инференс ближе к приложению (Сингапур, Токио, Сеул, Гонконг, восток/запад США — см. консоль). Начните с Тарифов, оформления заказа или главной vpszap для GPU VPS и AI inference hosting — не Linux VPS без GPU под WordPress.

2026: Ollama и open-source LLM на недорогом GPU VPS — VRAM, CUDA/Docker и сравнение с API FAQ

Кому подходит Ollama на GPU VPS (приватный инференс, комплаенс, пакетная обработка vs живой API)

VRAM и размер модели (пути деградации при нехватке памяти)

Docker и «голый» CUDA: два чек-листа установки

Путь A: Linux на железе + драйвер NVIDIA (типичный прод по умолчанию)

Путь B: Docker + NVIDIA Container Toolkit

Производительность и стоимость: benchmark tokens/s и математика точки безубыточности

Лёгкий benchmark (копировать-вставить)

Каркас месячных затрат (подставьте свои цены)

Продакшен: systemd, перезапуски, диск, логи, лимиты

Матрица ошибок (CUDA, OOM, медленный pull, открытый порт)

Когда дешёвый GPU VPS — плохой выбор по умолчанию (границы)

FAQ

Подберите уровень GPU под модель — приёмка Ollama до масштабирования

Уровень GPU, чек-лист Ollama — затем масштаб

Выбор языка / Choose Language