Сколько стоит сервер для self-hosted AI: от RTX 4090 до DGX Spark

Сервер для корпоративного ИИ — это GPU с достаточной VRAM под выбранную модель (от 24 ГБ на квантизованную Llama 70B до 128+ ГБ на DeepSeek R1) плюс инфраструктура вокруг. В 2026 году в России доступны четыре варианта: RTX 4090/5090, DGX Spark, H100/H200 и multi-GPU-сборки — каждый под свой масштаб и бюджет.

Этот текст — про реальные цены и характеристики на май 2026. С учётом санкционной реальности (что доступно в РФ, какие наценки), TCO на 3 года, и конкретных рекомендаций.

Базовые требования

Чтобы LLM 70B нормально инферила:

GPU memory: минимум 48 ГБ (для FP16) или 24 ГБ (для квантизованной FP8/INT4)
GPU compute: SM 8.0+ (Ampere или новее), желательно SM 9.0+ (Hopper, Blackwell)
Системная RAM: минимум 64 ГБ, рекомендуется 128 ГБ
Storage: NVMe SSD от 1 ТБ для весов + база данных
CPU: не критичен, но 8+ современных ядер для preprocessing документов

Меньше — модель работает медленно или не помещается. Больше — overhead для большинства корпоративных задач.

Вариант 1: RTX 4090 / RTX 5090

Что это: потребительские GPU NVIDIA. RTX 4090 (24 ГБ VRAM, Ada Lovelace) — старший геймерский, RTX 5090 (32 ГБ VRAM, Blackwell) — выходит на потребительский рынок в 2026.

Цена в РФ (май 2026):

RTX 4090: 200-280 тыс ₽ (б/у на Авито) или 250-350 тыс ₽ новая
RTX 5090: 350-500 тыс ₽ при наличии (дефицит)

Возможности:

Llama 3.3 70B в FP8/INT4 — работает, но впритык
Qwen 3 (1 нода) — не помещается
DeepSeek R1 — нет

Когда брать: малая команда до 20-30 человек, эпизодическое использование, ограниченный бюджет.

Минусы:

Без NVLink — связка двух GPU через PCIe медленнее DGX Spark
Геймерская гарантия 1 год вместо enterprise 3 года
Нет ECC RAM на VRAM — теоретически возможны single-bit errors (на практике редкость)

Полная сборка (RTX 4090 + AMD Threadripper 3960X + 128 ГБ RAM + 2 ТБ NVMe): 600-900 тыс ₽

Вариант 2: DGX Spark (NVIDIA)

Что это: компактный AI-десктоп от NVIDIA на чипе GB10. 128 ГБ unified memory (CPU+GPU делят пул), 20-ядерный ARM-процессор, Blackwell GPU. Размер — чуть больше Mac mini.

Цена в РФ: $4699-5500 (≈ 470-550 тыс ₽), серый импорт через Турцию/ОАЭ. Поставка 2-3 недели.

Возможности:

Llama 3.3 70B в FP8 — отлично, 23-50 TPS
Qwen 3 (1 нода) — впритык, требует FP8 + некоторые слои на CPU
DeepSeek R1 — нет (нужен кластер)
Встроенный кластер из 2 Spark’ов через QSFP 200G — расширение для больших моделей

Когда брать: команда 30-150 человек, регулярная нагрузка, hybrid use-case’ы (LLM + RAG + parsing документов одновременно).

Плюсы:

Unified memory — никаких «не помещается»
Низкое энергопотребление (~400 Вт пик)
Compact (помещается на стол)
Кластеризация одной командой через QSFP

Минусы:

ARM-архитектура — некоторые софт работает только после перекомпиляции
В 2026 драйвера всё ещё развиваются — некоторые версии содержат регрессии (мы об этом подробно в статье на Habr)
Серый импорт — нет официальной гарантии в РФ, but вендор в США/EU поддерживает

Полная сборка (DGX Spark + ИБП + сетевое): 600-700 тыс ₽

Вариант 3: NVIDIA H100 / H200

Что это: datacenter-уровень GPU. H100 (80 ГБ, Hopper), H200 (141 ГБ, Hopper). Используются в облаках и dedicated инфраструктуре.

Цена в РФ: $35-50K за карту (3.5-5 млн ₽). Плюс сервер 8x H100 — 40-60 млн ₽.

Возможности:

DeepSeek R1 на 8x H100 — работает в FP8
Несколько Qwen 3 / Llama 70B на одной карте — high concurrency
vLLM batching на 100+ параллельных запросов

Когда брать:

Большая команда 500+ человек с heavy concurrent нагрузкой
ML/AI компании которые сами тренируют/файнтюнят модели
AI-провайдеры которые продают inference другим

Минусы:

Дорого. На 99% корпоративных кейсов overkill.
Поставка через серый импорт со значительной наценкой

Полная сборка (1x H100 + сервер): 5-7 млн ₽. Кластер 8x H100 — 40-60 млн ₽.

Вариант 4: Multi-GPU consumer rig

Что это: сборка из 2-4 RTX 4090 / 5090 на одной материнке через tensor parallelism (vLLM, TGI).

Цена: 2x RTX 4090 + workstation = 1.0-1.4 млн ₽; 4x RTX 4090 + бизнес-сервер = 1.8-2.5 млн ₽.

Возможности:

2x 4090 (48 ГБ суммарно): Llama 3.3 70B в FP8 — комфортно, Qwen 3 — впритык
4x 4090 (96 ГБ): Qwen 3 уверенно, mixed workloads

Когда брать:

Между DGX Spark и H100 по бюджету
Команда 100-300 человек
Нет требования «корпоративная сертифицированная инфраструктура»

Плюсы:

В 2-3 раза дешевле H100 на эквивалентную VRAM
Доступнее — карты можно купить на б/у рынке

Минусы:

Нет NVLink (для 4090) — tensor parallelism через PCIe медленнее
Сборка нестандартная — питание 1500+ Вт, охлаждение требует продумывания
Стандартизированной enterprise-поддержки нет

Сравнение TCO на 3 года

Для команды 50 человек с типовой нагрузкой (10K запросов/день):

Вариант	CAPEX	Электричество/год	Итого 3 года
RTX 4090 одиночный	700k ₽	30k ₽	790k ₽
2x RTX 4090	1.2M ₽	50k ₽	1.35M ₽
DGX Spark	700k ₽	12k ₽	736k ₽
2x DGX Spark кластер	1.4M ₽	24k ₽	1.47M ₽
1x H100 server	6M ₽	80k ₽	6.24M ₽
8x H100 (dedicated)	50M ₽	600k ₽	51.8M ₽

DGX Spark — sweet spot по «качество inference / стоимость владения» для средних команд.

Цифры в таблицах — оценочные расчёты на типовых сценариях нагрузки, а не оферта; реальная стоимость зависит от вашего профиля использования.

Что нужно помимо GPU-сервера

Полная инфраструктура AGmind:

Компонент	Цена
GPU-сервер (один из вариантов выше)	700k - 6M ₽
ИБП на 30+ минут autonomy	80-150 тыс ₽
Серверная стойка (если нет своей)	30-80 тыс ₽
Сетевое (UTM, switch)	30-100 тыс ₽
Резервирование (cold spare диски)	20-50 тыс ₽
Итого инфраструктура	+150-380 тыс ₽ к GPU

Стоимость внедрения под ключ (наша работа): 1.2-2.5 млн ₽ для команды до 50 человек, 2.5-5 млн ₽ для большего.

Где лучше не экономить

1. NVMe SSD для весов и базы. SATA SSD грузит модель в 4-5 раз медленнее. На каждом restart’е сервиса это +2-3 минуты ожидания. NVMe Gen4 — обязательно.

2. RAM. 64 ГБ — минимум, при котором ничего не выпадет в swap. 128 ГБ — комфортно. На 128+ можно держать в RAM cache горячих векторов и часто используемые промпты.

3. ИБП с autonomy 30+ минут. Один грубый shutdown через kill -9 на vLLM может corrupt’нуть KV-cache и потребует перезагрузку с reindex. Достойный ИБП — это страховка.

4. Cooling. GPU при 100% load выделяет 350-700 Вт тепла. Без нормальной вентиляции/кондиционирования сервер throttles. На производительность это удар -20-40%.

Где можно сэкономить

1. CPU. На inference LLM CPU почти не работает. Бюджетный AMD Ryzen 7700X ($300) ничем не хуже Threadripper для этой задачи.

2. Корпус. Mining-rig корпуса за 5-10 тыс ₽ работают так же хорошо как enterprise-серверные.

3. Network. Если AI обслуживает только корпоративную сеть — 1 Гбит достаточно. 10 Гбит — overkill для 90% кейсов.

4. Б/у рынок. RTX 4090 после майнинга — рисковано но возможно сэкономить 30-40% при правильной проверке.

Реальные сборки клиентов

Стартап на 15 человек, бюджет 800 тыс ₽:

1x RTX 4090 (б/у, проверенная)
AMD Ryzen 7700X + 64 ГБ RAM + 2 ТБ NVMe
Базовая стойка
Llama 3.3 70B в Q4 квантизации
Работает, ограничения по concurrency (5-8 параллельных)

B2B SaaS на 80 человек, бюджет 1.5 млн ₽:

1x DGX Spark
ИБП APC 1500 Вт
Llama 3.3 70B в FP8 + RAG-стэк AGmind
30+ параллельных запросов без проблем

Юридическая фирма на 200 юристов, бюджет 4 млн ₽:

2x DGX Spark в кластере (через QSFP)
Один обслуживает основной чат, второй — фоновую обработку документов
Qwen 3 235B в FP8 на peer-узле

Корпорация на 1000+ сотрудников, бюджет открытый:

Сервер с 4x H100
DeepSeek R1 в FP8 для главного inference
Дополнительно 2x DGX Spark для пилотов и фоновых задач

Что обычно недооценивают

Нагрузка растёт со временем. Первый месяц 30 человек делают 5-10K запросов/день. Через год — 30-60K. Закладывайте железо с запасом 2-3x текущих требований.

Электричество и тепло. GPU-сервер при 24/7 нагрузке выделяет 6-15 кВт·ч/сутки тепла. В обычной офисной комнате это +5-8°C — нужен либо отдельный серверный шкаф, либо кондиционирование.

Резервирование. Один GPU = single point of failure. На критичных кейсах закладывайте 2 GPU-сервера в active-passive режиме либо облачный fallback (Yandex Cloud для emergency).

Итог

В 2026 году sweet spot для российского B2B — DGX Spark (для команд 30-150 человек, 700 тыс ₽) или 2x RTX 4090 (для бюджетных решений до 50 человек, 1-1.2 млн ₽). H100 — overkill для большинства корпоративных кейсов и оправдан только для сотен concurrent users или ML-разработки.

В AGmind мы помогаем с подбором железа на этапе аудита и можем поставить сборку под ключ.

Хотите проверить на конкретных цифрах ваших задач — демо за 2 рабочих дня бесплатно. Покажем какое железо нужно под вашу нагрузку.

Связанные: DGX Spark setup на Habr, сравнение open-source моделей, стоимость ChatGPT для команды 30.