Сколько стоит сервер для self-hosted AI: от RTX 4090 до DGX Spark
Выбор железа под корпоративный AI в 2026: что взять под команду 30 / 100 / 500 человек, где экономить, где не стоит. С реальными ценами и расчётами TCO.
Сервер для корпоративного ИИ — это GPU с достаточной VRAM под выбранную модель (от 24 ГБ на квантизованную Llama 70B до 128+ ГБ на DeepSeek R1) плюс инфраструктура вокруг. В 2026 году в России доступны четыре варианта: RTX 4090/5090, DGX Spark, H100/H200 и multi-GPU-сборки — каждый под свой масштаб и бюджет.
Этот текст — про реальные цены и характеристики на май 2026. С учётом санкционной реальности (что доступно в РФ, какие наценки), TCO на 3 года, и конкретных рекомендаций.
Базовые требования
Чтобы LLM 70B нормально инферила:
- GPU memory: минимум 48 ГБ (для FP16) или 24 ГБ (для квантизованной FP8/INT4)
- GPU compute: SM 8.0+ (Ampere или новее), желательно SM 9.0+ (Hopper, Blackwell)
- Системная RAM: минимум 64 ГБ, рекомендуется 128 ГБ
- Storage: NVMe SSD от 1 ТБ для весов + база данных
- CPU: не критичен, но 8+ современных ядер для preprocessing документов
Меньше — модель работает медленно или не помещается. Больше — overhead для большинства корпоративных задач.
Вариант 1: RTX 4090 / RTX 5090
Что это: потребительские GPU NVIDIA. RTX 4090 (24 ГБ VRAM, Ada Lovelace) — старший геймерский, RTX 5090 (32 ГБ VRAM, Blackwell) — выходит на потребительский рынок в 2026.
Цена в РФ (май 2026):
- RTX 4090: 200-280 тыс ₽ (б/у на Авито) или 250-350 тыс ₽ новая
- RTX 5090: 350-500 тыс ₽ при наличии (дефицит)
Возможности:
- Llama 3.3 70B в FP8/INT4 — работает, но впритык
- Qwen 3 (1 нода) — не помещается
- DeepSeek R1 — нет
Когда брать: малая команда до 20-30 человек, эпизодическое использование, ограниченный бюджет.
Минусы:
- Без NVLink — связка двух GPU через PCIe медленнее DGX Spark
- Геймерская гарантия 1 год вместо enterprise 3 года
- Нет ECC RAM на VRAM — теоретически возможны single-bit errors (на практике редкость)
Полная сборка (RTX 4090 + AMD Threadripper 3960X + 128 ГБ RAM + 2 ТБ NVMe): 600-900 тыс ₽
Вариант 2: DGX Spark (NVIDIA)
Что это: компактный AI-десктоп от NVIDIA на чипе GB10. 128 ГБ unified memory (CPU+GPU делят пул), 20-ядерный ARM-процессор, Blackwell GPU. Размер — чуть больше Mac mini.
Цена в РФ: $4699-5500 (≈ 470-550 тыс ₽), серый импорт через Турцию/ОАЭ. Поставка 2-3 недели.
Возможности:
- Llama 3.3 70B в FP8 — отлично, 23-50 TPS
- Qwen 3 (1 нода) — впритык, требует FP8 + некоторые слои на CPU
- DeepSeek R1 — нет (нужен кластер)
- Встроенный кластер из 2 Spark’ов через QSFP 200G — расширение для больших моделей
Когда брать: команда 30-150 человек, регулярная нагрузка, hybrid use-case’ы (LLM + RAG + parsing документов одновременно).
Плюсы:
- Unified memory — никаких «не помещается»
- Низкое энергопотребление (~400 Вт пик)
- Compact (помещается на стол)
- Кластеризация одной командой через QSFP
Минусы:
- ARM-архитектура — некоторые софт работает только после перекомпиляции
- В 2026 драйвера всё ещё развиваются — некоторые версии содержат регрессии (мы об этом подробно в статье на Habr)
- Серый импорт — нет официальной гарантии в РФ, but вендор в США/EU поддерживает
Полная сборка (DGX Spark + ИБП + сетевое): 600-700 тыс ₽
Вариант 3: NVIDIA H100 / H200
Что это: datacenter-уровень GPU. H100 (80 ГБ, Hopper), H200 (141 ГБ, Hopper). Используются в облаках и dedicated инфраструктуре.
Цена в РФ: $35-50K за карту (3.5-5 млн ₽). Плюс сервер 8x H100 — 40-60 млн ₽.
Возможности:
- DeepSeek R1 на 8x H100 — работает в FP8
- Несколько Qwen 3 / Llama 70B на одной карте — high concurrency
- vLLM batching на 100+ параллельных запросов
Когда брать:
- Большая команда 500+ человек с heavy concurrent нагрузкой
- ML/AI компании которые сами тренируют/файнтюнят модели
- AI-провайдеры которые продают inference другим
Минусы:
- Дорого. На 99% корпоративных кейсов overkill.
- Поставка через серый импорт со значительной наценкой
Полная сборка (1x H100 + сервер): 5-7 млн ₽. Кластер 8x H100 — 40-60 млн ₽.
Вариант 4: Multi-GPU consumer rig
Что это: сборка из 2-4 RTX 4090 / 5090 на одной материнке через tensor parallelism (vLLM, TGI).
Цена: 2x RTX 4090 + workstation = 1.0-1.4 млн ₽; 4x RTX 4090 + бизнес-сервер = 1.8-2.5 млн ₽.
Возможности:
- 2x 4090 (48 ГБ суммарно): Llama 3.3 70B в FP8 — комфортно, Qwen 3 — впритык
- 4x 4090 (96 ГБ): Qwen 3 уверенно, mixed workloads
Когда брать:
- Между DGX Spark и H100 по бюджету
- Команда 100-300 человек
- Нет требования «корпоративная сертифицированная инфраструктура»
Плюсы:
- В 2-3 раза дешевле H100 на эквивалентную VRAM
- Доступнее — карты можно купить на б/у рынке
Минусы:
- Нет NVLink (для 4090) — tensor parallelism через PCIe медленнее
- Сборка нестандартная — питание 1500+ Вт, охлаждение требует продумывания
- Стандартизированной enterprise-поддержки нет
Сравнение TCO на 3 года
Для команды 50 человек с типовой нагрузкой (10K запросов/день):
| Вариант | CAPEX | Электричество/год | Замена/обновление | Итого 3 года |
|---|---|---|---|---|
| RTX 4090 одиночный | 700k ₽ | 30k ₽ | 0 | 790k ₽ |
| 2x RTX 4090 | 1.2M ₽ | 50k ₽ | 0 | 1.35M ₽ |
| DGX Spark | 700k ₽ | 12k ₽ | 0 | 736k ₽ |
| 2x DGX Spark кластер | 1.4M ₽ | 24k ₽ | 0 | 1.47M ₽ |
| 1x H100 server | 6M ₽ | 80k ₽ | 0 | 6.24M ₽ |
| 8x H100 (dedicated) | 50M ₽ | 600k ₽ | 0 | 51.8M ₽ |
DGX Spark — sweet spot по «качество inference / стоимость владения» для средних команд.
Цифры в таблицах — оценочные расчёты на типовых сценариях нагрузки, а не оферта; реальная стоимость зависит от вашего профиля использования.
Что нужно помимо GPU-сервера
Полная инфраструктура AGmind:
| Компонент | Цена |
|---|---|
| GPU-сервер (один из вариантов выше) | 700k - 6M ₽ |
| ИБП на 30+ минут autonomy | 80-150 тыс ₽ |
| Серверная стойка (если нет своей) | 30-80 тыс ₽ |
| Сетевое (UTM, switch) | 30-100 тыс ₽ |
| Резервирование (cold spare диски) | 20-50 тыс ₽ |
| Итого инфраструктура | +150-380 тыс ₽ к GPU |
Стоимость внедрения под ключ (наша работа): 1.2-2.5 млн ₽ для команды до 50 человек, 2.5-5 млн ₽ для большего.
Где лучше не экономить
1. NVMe SSD для весов и базы. SATA SSD грузит модель в 4-5 раз медленнее. На каждом restart’е сервиса это +2-3 минуты ожидания. NVMe Gen4 — обязательно.
2. RAM. 64 ГБ — минимум, при котором ничего не выпадет в swap. 128 ГБ — комфортно. На 128+ можно держать в RAM cache горячих векторов и часто используемые промпты.
3. ИБП с autonomy 30+ минут. Один грубый shutdown через kill -9 на vLLM может corrupt’нуть KV-cache и потребует перезагрузку с reindex. Достойный ИБП — это страховка.
4. Cooling. GPU при 100% load выделяет 350-700 Вт тепла. Без нормальной вентиляции/кондиционирования сервер throttles. На производительность это удар -20-40%.
Где можно сэкономить
1. CPU. На inference LLM CPU почти не работает. Бюджетный AMD Ryzen 7700X ($300) ничем не хуже Threadripper для этой задачи.
2. Корпус. Mining-rig корпуса за 5-10 тыс ₽ работают так же хорошо как enterprise-серверные.
3. Network. Если AI обслуживает только корпоративную сеть — 1 Гбит достаточно. 10 Гбит — overkill для 90% кейсов.
4. Б/у рынок. RTX 4090 после майнинга — рисковано но возможно сэкономить 30-40% при правильной проверке.
Реальные сборки клиентов
Стартап на 15 человек, бюджет 800 тыс ₽:
- 1x RTX 4090 (б/у, проверенная)
- AMD Ryzen 7700X + 64 ГБ RAM + 2 ТБ NVMe
- Базовая стойка
- Llama 3.3 70B в Q4 квантизации
- Работает, ограничения по concurrency (5-8 параллельных)
B2B SaaS на 80 человек, бюджет 1.5 млн ₽:
- 1x DGX Spark
- ИБП APC 1500 Вт
- Llama 3.3 70B в FP8 + RAG-стэк AGmind
- 30+ параллельных запросов без проблем
Юридическая фирма на 200 юристов, бюджет 4 млн ₽:
- 2x DGX Spark в кластере (через QSFP)
- Один обслуживает основной чат, второй — фоновую обработку документов
- Qwen 3 235B в FP8 на peer-узле
Корпорация на 1000+ сотрудников, бюджет открытый:
- Сервер с 4x H100
- DeepSeek R1 в FP8 для главного inference
- Дополнительно 2x DGX Spark для пилотов и фоновых задач
Что обычно недооценивают
Нагрузка растёт со временем. Первый месяц 30 человек делают 5-10K запросов/день. Через год — 30-60K. Закладывайте железо с запасом 2-3x текущих требований.
Электричество и тепло. GPU-сервер при 24/7 нагрузке выделяет 6-15 кВт·ч/сутки тепла. В обычной офисной комнате это +5-8°C — нужен либо отдельный серверный шкаф, либо кондиционирование.
Резервирование. Один GPU = single point of failure. На критичных кейсах закладывайте 2 GPU-сервера в active-passive режиме либо облачный fallback (Yandex Cloud для emergency).
Итог
В 2026 году sweet spot для российского B2B — DGX Spark (для команд 30-150 человек, 700 тыс ₽) или 2x RTX 4090 (для бюджетных решений до 50 человек, 1-1.2 млн ₽). H100 — overkill для большинства корпоративных кейсов и оправдан только для сотен concurrent users или ML-разработки.
В AGmind мы помогаем с подбором железа на этапе аудита и можем поставить сборку под ключ.
Хотите проверить на конкретных цифрах ваших задач — демо за 2 рабочих дня бесплатно. Покажем какое железо нужно под вашу нагрузку.
Связанные: DGX Spark setup на Habr, сравнение open-source моделей, стоимость ChatGPT для команды 30.