Если вам нужны Llama 3, Qwen, Mistral и другие открытые веса на инфраструктуре под вашим контролем, в 2026 году один из самых простых путей по-прежнему — Ollama: скачать модель, поднять локальный OpenAI-совместимый эндпоинт /v1 и следовать документированной установке Linux + NVIDIA CUDA. Этот материал закрывает запросы вроде cheap GPU VPS и run Ollama cloud: понять, выгоднее ли GPU-хост, чем API по токенам, подобрать VRAM, пройти копируемый чек-лист приёмки CUDA / Docker и сравнить месячную аренду GPU с счетами за токены — по параметрической формуле, без выдуманных прайсов vpszap.
Кому подходит Ollama на GPU VPS (приватный инференс, комплаенс, пакетная обработка vs живой API)
Свой Ollama на GPU-сервере уместен, когда: (1) промпты и обучающие данные не должны покидать ваш периметр — важны приватный инференс и аудит; (2) ночью и в выходные идут крупные задачи суммаризации, разметки или индексации RAG, где офлайн-пакеты выгоднее оплаты за каждый запрос; (3) фиксированный набор внутренних сервисов (порядка 3–20 одновременных клиентов) бьёт в одну модель, и расходы на API растут линейно каждый месяц; (4) нужны зафиксированные версии моделей и уровни квантования (Q4_K_M, Q5 и т.д.), а не тихие замены upstream.
Коммерческие API по токенам всё ещё выигрывают, когда пики непредсказуемы, нужны новейшие закрытые модели или некому поддерживать драйверы и диски. При очень малом месячном объёме (например, меньше ~5M токенов) и мягких требованиях к задержке постоянная аренда GPU простаивает. Граница: крошечные кванты только на CPU можно попробовать на дешёвом VPS без GPU, но длина контекста и tokens/s рушатся — в этой статье предполагается Ollama + NVIDIA GPU.
VRAM и размер модели (пути деградации при нехватке памяти)
Подбор — не «параметры ÷ 2». Закладывайте параметры × биты квантования + KV-кэш, который растёт с длиной контекста и числом параллельных сессий. Таблица ниже отражает типичные уровни инференса 2026 (один инстанс, контекст ~8k); проверяйте на хосте через nvidia-smi.
| Масштаб модели | Типичное квант. | Реком. VRAM (один поток) | Типичный cloud SKU | Если VRAM не хватает |
|---|---|---|---|---|
| 7B (Llama 3, Qwen 2.5 и др.) | Q4_K_M | ≈ 6–8 ГБ | RTX 3060 12G, T4; у RTX 4090 запас | Q3 или короче контекст; меньше параллельных запросов |
| 7B | Q8 / частичный FP16 | ≈ 10–14 ГБ | RTX 3080/4080, L4 | Перейти на Q4; убрать лишние адаптеры |
| 13B | Q4_K_M | ≈ 10–12 ГБ | RTX 4090 24G, A10 24G | Дистиллят 7B; пакеты офлайн |
| 34B–40B | Q4 | ≈ 22–26 ГБ | RTX 4090 24G (впритык), A100 40G | 13B; multi-GPU (зависит от версии Ollama) |
| 70B | Q4_K_M | ≈ 40–48 ГБ+ | A100 80G, H100, multi-GPU | 34B или разбитый pipeline; API на пики |
Дешёвый GPU VPS класса RTX 4090 — обычная точка для квантов 7B–13B. Уровни A100 / H100 Cloud GPU — для 70B, длинного контекста или высокой параллельности. Порядок деградации: меньше параллелизма → короче контекст → мельче квант → меньше модель → разнести пакетные задачи — не запускайте сразу самые тяжёлые веса и не крутитесь в OOM.
Docker и «голый» CUDA: два чек-листа установки
Путь A: Linux на железе + драйвер NVIDIA (типичный прод по умолчанию)
- После выдачи GPU-инстанса зайдите по SSH; заложите ≥ 80 ГБ диска — кэш моделей быстро растёт.
- Установите драйвер NVIDIA; примите через
nvidia-smi(имя GPU, версия драйвера, суммарная VRAM). - Установите Ollama по доке:
curl -fsSL https://ollama.com/install.sh | sh, затемsudo systemctl enable --now ollama(имя unit может отличаться). - Скачайте модель:
ollama pull qwen2.5:7b-instruct-q4_K_M(тег по каталогу). - Здоровье:
curl -s http://127.0.0.1:11434/api/tagsвозвращает JSON; наружу — только за TLS и аутентификацией. - Проверка OpenAI-совместимости:
curl http://127.0.0.1:11434/v1/models.
Путь B: Docker + NVIDIA Container Toolkit
- Установите
nvidia-container-toolkit, выполнитеsudo nvidia-ctk runtime configure --runtime=docker, перезапустите Docker. - Старт:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama(тег сверьте на Docker Hub). - Внутри контейнера:
docker exec -it ollama ollama run llama3.2. - Те же проверки:
curl http://127.0.0.1:11434/api/tags; логи —docker logs -f ollama.
Если вы уже отлаживаете контейнерные стеки на шлюзе, многоуровневый подход к health-check из развёртывания и устранения неполадок OpenClaw в Docker Compose хорошо переносится на Linux GPU + Ollama (тома, пробы, «процесс жив, но handshake падает»).
Производительность и стоимость: benchmark tokens/s и математика точки безубыточности
Лёгкий benchmark (копировать-вставить)
# 1) Базовая VRAM
nvidia-smi --query-gpu=memory.used,utilization.gpu --format=csv -l 1
# 2) Потоковый прогон — оцените tokens/s (имя вашей модели)
time ollama run qwen2.5:7b-instruct-q4_K_M "In 200 words, list an AI inference hosting acceptance checklist."
# 3) HTTP-smoke (установите hey или wrk; сначала лимитируйте RPS)
hey -n 20 -c 2 -m POST -H "Content-Type: application/json" \
-d '{"model":"qwen2.5:7b-instruct-q4_K_M","prompt":"hi","stream":false}' \
http://127.0.0.1:11434/api/generate
Зафиксируйте три числа для матрицы решений: время до первого токена, устойчивые tokens/s и даёт ли concurrency = 2 OOM. Сравнение на одной машине важнее заявлений из лидербордов.
Каркас месячных затрат (подставьте свои цены)
Пусть G = месячная аренда GPU (или $/GPU-час × 730), E = электричество/колокация при своём железе, A = накладные на эксплуатацию (опционально). Расход на API ≈ T × P, где T — токены в месяц (вход/выход считайте отдельно, если тариф раздельный), P — $/1M токенов у вендора по актуальным публичным страницам.
Точка безубыточности (грубо): когда G + E + A < T × P и GPU загружен, self-host притягивает; иначе оставляйте API — или гибрид (API на пики, Ollama на провалы).
| Сценарий | Токены/мес (иллюстрация) | Склонность | Заметки |
|---|---|---|---|
| Один разработчик | < 3M | API или краткая аренда 4090 | Фиксированная аренда простаивает |
| Команда из 3 человек | 20M–80M | Один 4090 + Ollama часто выигрывает | Ночные пакеты поднимают утилизацию |
| Ночной пакет (~8 ч/сут) | Эластично | Оплата GPU-часами может быть выгоднее 24/7 | Днём выключать |
| 70B + длинный контекст | Высокий | Уровень A100 + жёсткий лимит параллелизма | Больно и OOM, и счета API |
Пример-заглушки (замените своими котировками): при G = $280/мес за Cloud GPU класса 4090, T = 50M токенов, смешанное P ≈ $0.6/1M, API ≈ $30 — по деньгам API дешевле, но без учёта резидентности данных и контроля версий. При T = 500M API ≈ $300, self-host начинает конкурировать — если готовы вести драйверы, диски и безопасность. Про маршрутизацию нескольких провайдеров (с Ollama в ядре инференса) см. мультипровайдерную конфигурацию OpenClaw и failover.
Продакшен: systemd, перезапуски, диск, логи, лимиты
- systemd:
Restart=on-failure; перед обновлением останавливайте Ollama, чтобы не оставить полузаписанные blob. - Диск: алерт, когда
/var/lib/ollamaили Docker-том < ~15% свободного; параллельные pull быстро забивают диск. - Логи: ротация journal или
docker logs; в постмортеме OOM фиксируйте тег модели, квант и параллелизм. - Лимиты: ограничьте QPS и размер тела на
/v1/chat/completionsна reverse proxy; не открывайте 11434 на 0.0.0.0 без auth. - Config as code: кэш моделей восстанавливайте из pull; Modelfile и политику держите в Git.
GPU VPS обычно только SSH — без VNC. Заложите bastion и port forwarding для админ-эндпоинтов, как на build-хосте.
Матрица ошибок (CUDA, OOM, медленный pull, открытый порт)
| Симптом | Вероятная причина | Порядок исправления |
|---|---|---|
nvidia-smi не видит GPU | Нет драйвера, GPU не привязан, нужна перезагрузка | SKU GPU в консоли → переустановка драйвера → тикет провайдеру |
| В контейнере нет GPU | Нет toolkit, нет --gpus=all | nvidia-ctk configure → перезапуск Docker |
| Логи несовпадения CUDA | Драйвер vs runtime | Выровнять драйвер хоста; зафиксировать тег ollama/ollama |
| OOM / процесс убит | Слишком большая модель, параллелизм, длинный контекст | Меньше параллелизма → короче контекст → Q4 → 7B |
Медленный ollama pull | Трансграничный канал, медленный диск | Pull вне пика; больший диск; зеркало, если разрешено |
| Сканируют открытый 11434 | Публичный bind 0.0.0.0 | Allowlist в security group; API key или mTLS |
Сноска: командам с continuous batching и горячей сменой LoRA иногда отдельно смотрят vLLM. Эта статья остаётся на Ollama — про простую установку и совместимость /v1 для малых и средних команд.
Когда дешёвый GPU VPS — плохой выбор по умолчанию (границы)
- Очень мало токенов в месяц и нет Linux-оператора — покупайте время у API, а не драйверы.
- 70B в полной точности или тяжёлый мультимодал — одного 4090 мало; не насилуйте самый дешёвый SKU.
- Заявленная VRAM не сходится с
nvidia-smi— меняйте SKU или регион, не подгоняйте промпты под обман. - Комплаенс требует аттестации выделенного железа — проверяйте договор и логи, а не только $/час.
FAQ
- Дешёвый GPU server vs Cloud GPU? Аренда одной карты в стиле VPS vs пулы GPU-часов. Выбирайте по нужде 24/7 или прерывистых пакетов.
- Может ли Ollama полностью заменить OpenAI? Для открытых весов и мягкой задержки во внутренних инструментах — часто да; для новейших закрытых моделей или жёсткого SLA — держите ёмкость API.
- Минимум для локального LLM? 7B Q4 хочет ≥ ~8 ГБ полезной VRAM; в проде обычно нужен запас 24 ГБ под KV и параллелизм.
- Как принять AI inference hosting?
nvidia-smi,/api/tagsи базовый tokens/s на фиксированном промпте до переключения трафика. - Управляемый «run Ollama cloud» vs DIY? Managed экономит ops; DIY контролирует данные и unit economics. На vpszap вы поднимаете GPU-инстансы и проходите этот чек-лист на машине.
Подберите уровень GPU под модель — приёмка Ollama до масштабирования
vpszap — платформа инфраструктуры для AI-разработчиков: помимо облачного Mac доступны GPU VPS / Cloud GPU для llm hosting — класс RTX 4090 под кванты 7B–13B, класс A100 под более тяжёлые веса или выше параллелизм. После выдачи инстанса выполните ollama pull и /api/tags из этой статьи, затем добавляйте узлы, когда benchmark это оправдает. Ставьте инференс ближе к приложению (Сингапур, Токио, Сеул, Гонконг, восток/запад США — см. консоль). Начните с Тарифов, оформления заказа или главной vpszap для GPU VPS и AI inference hosting — не Linux VPS без GPU под WordPress.