DeepSeek R1 vs Qwen 3 vs Llama 3.3 70B: что выбрать для self-hosted на русском

В 2026 году три open-weight модели делят рынок корпоративного self-hosted AI на русском: DeepSeek R1 — reasoning-флагман для сложной аналитики, Qwen 3 — универсальный sweet spot по качество/железо, Llama 3.3 70B — самый доступный старт с сильными русскими fine-tune’ами. Выбор зависит от ваших задач и бюджета на железо.

Этот текст — результат тестирования всех трёх на русских корпоративных задачах. Бенчмарки на реальных документах, не синтетические тесты, и рекомендации под конкретные сценарии.

Базовые характеристики

Параметр	DeepSeek R1	Qwen 3 (235B-A22B)	Llama 3.3 70B
Размер	671B (37B active MoE)	235B (22B active MoE)	70B dense
Контекст	128K	128K	128K
GPU память (FP8)	~370 GB	~120 GB	~75 GB
Inference на DGX Spark	требует кластер	1-2 ноды	1 нода
Лицензия	MIT	Apache 2.0	Meta Custom (commercial OK)
Год выхода	январь 2025 (R1), обновления 2026	март 2025 → 2026 versions	декабрь 2024

DeepSeek R1 — самая мощная, но самая тяжёлая. Qwen 3 — sweet spot по соотношению качество/железо. Llama 3.3 — самая лёгкая, доступнее всего железа.

Качество на русском: что говорят открытые лидерборды

Объективное сравнение open-source LLM на русском языке публикуется в ru-llm-arena (Vikhr Models, crowdsourced Elo-рейтинг) и на MTEB Leaderboard в части retrieval-задач. Актуальные позиции моделей меняются с каждым новым релизом — смотрите свежие данные на этих страницах.

Устойчивые качественные паттерны, наблюдаемые по сообществу и документации моделей:

Сложные аналитические задачи (юридические документы, финансовое моделирование, code review)

DeepSeek R1 выигрывает за счёт explicit reasoning-chain: модель показывает ход рассуждений, что удобно для аудита. Inference медленный — 10-15 TPS на топовом железе.

Qwen 3 близок по качеству при MoE-архитектуре (активны 22B из 235B параметров) — inference вдвое быстрее при сопоставимом результате на большинстве задач.

Разговорный русский

Llama 3.3 70B с fine-tune’ами от Vikhr/Saiga даёт наиболее естественный русский язык — благодаря активному сообществу и высокой доле русского в training-корпусе fine-tuned версий.

Длинный контекст (50+ страниц)

DeepSeek R1 и Qwen 3 держат 128K токенов надёжнее, чем Llama 3.3 70B, у которой заметное ухудшение recall после 60-80K токенов — это наблюдение подтверждается независимыми тестами в ru-llm-arena и документации Vikhr.

Особенности каждой

DeepSeek R1: reasoning-флагман

Сильные стороны:

Explicit reasoning chain — видно как модель думает
Лучшее на математике, логических головоломках, code review
Очень глубокое понимание сложных задач
MIT лицензия — полная свобода

Слабые стороны:

Тяжёлое железо: реально нужен кластер из 4-8 GPU H100/H200
Slow inference — 10-15 TPS даже на топовом железе
Менее стабильна на разговорных задачах
Иногда выходит за рамки, продолжает reasoning после ответа

Когда брать: сложные analytical задачи, code review, юридический анализ, financial modeling. Если у вас есть мощный кластер.

Qwen 3: универсал

Сильные стороны:

Лучшее соотношение качество/железо
Хорошо балансирует разные задачи
MoE-архитектура — активны только 22B параметров на запрос (быстрее full-dense)
Apache 2.0 — самая свободная лицензия

Слабые стороны:

Иногда «китайский» акцент в формулировках на русском
Менее acclaimed в индустрии чем DeepSeek или Llama (меньше готовых fine-tunes)
Менее активная open-source комьюнити в РФ

Когда брать: general-purpose корпоративный ассистент. Когда нужно одно решение на все задачи. На DGX Spark или 2x RTX 4090.

Llama 3.3 70B: доступная и зрелая

Сильные стороны:

Минимальное железо: одна RTX 4090 / DGX Spark достаточно
Самая большая комьюнити, готовые fine-tunes для русского (Vikhr-models, Saiga, etc)
Лучше всего на разговорных задачах
Зрелая, хорошо изученная

Слабые стороны:

Лицензия Meta Custom — commercial OK, но есть ограничения для гиперскейлеров
Reasoning слабее DeepSeek на сложных задачах
Контекст ограничен 128K — на длинных документах проигрывает

Когда брать: customer-facing бот, разговорный AI, ограниченное железо, российские fine-tunes (Saiga 70B, Vikhr).

Russian fine-tunes

Все три имеют русские fine-tuned версии:

Llama 3.3: Saiga-Llama3.3-70B (IlyaGusev), Vikhr-Llama-3.3-70B
Qwen 3: Saiga-Qwen3-32B (свежие), официальные Qwen-Russian
DeepSeek: Saiga-DeepSeek-R1 (community), официальных нет

Fine-tunes дают +5-10% на русских задачах ценой 1-2 дней на загрузку и тестирование. Обычно стоит того.

Реальные требования к железу

Llama 3.3 70B

1x DGX Spark (128 GB unified memory)
ИЛИ 1x A100/H100 80GB
ИЛИ 2x RTX 4090 (через tensor parallelism)
vLLM/TGI inference, FP8 квантизация для compactности

Qwen 3 235B-A22B

1x DGX Spark (128 GB) — впритык, FP8 + некоторые слои на CPU
ИЛИ 2x DGX Spark в кластере (рекомендуется)
ИЛИ 4x RTX 4090 / 2x H100
Активный размер 22B = быстрая inference

DeepSeek R1 671B

Минимум 4-8x H100/H200 в кластере
ИЛИ Cloud (Yandex Cloud, immers.cloud) если облако приемлемо
Обычно избыточен для корпоративных задач — берут только под специфические reasoning workloads

Сколько стоит владение open-source LLM за год?

Модель	Сервер	OPEX/год	Итого CAPEX + 1 год
Llama 3.3 70B	600k–1.2M ₽	80k–150k ₽	0.7–1.4M ₽
Qwen 3 (1 нода)	1.2M–2.5M ₽	100k–200k ₽	1.3–2.7M ₽
Qwen 3 (2 ноды)	2.5M–5M ₽	200k–400k ₽	2.7–5.4M ₽
DeepSeek R1 (кластер)	8M–15M ₽	500k–1M ₽	8.5–16M ₽

Для большинства SMB и mid-market команд (до 100 человек) Llama 3.3 70B или Qwen 3 1-нода — sweet spot.

Задача	Рекомендация
Customer-facing бот на сайте/в Telegram	Llama 3.3 70B + Saiga fine-tune
Внутренний ассистент по корп. документам	Qwen 3 (1 нода)
Юр.отдел, анализ договоров	Qwen 3 или DeepSeek R1 (если есть железо)
Code review, технический ассистент	DeepSeek R1
Поддержка 24/7, FAQ-бот	Llama 3.3 70B
Финансовый анализ, отчётность	DeepSeek R1 (для reasoning) или Qwen 3
Маркетинг (генерация контента)	Llama 3.3 70B (естественный язык)
Multi-modal (документы с картинками)	Qwen 3 + Vision (Qwen2.5-VL)

Когда не брать open-source

Несмотря на близость к закрытым моделям, в трёх случаях cloud (OpenAI/Anthropic/Gemini) всё ещё может быть оправдан:

Cutting-edge multimodal (особенно vision-language) — новейшие GPT-4-vision-preview / Claude 4 Sonnet vision лучше чем self-hosted vision-LLM с 6-12 месячным lag’ом
Стартап с runway < 12 мес — CAPEX ломает cash flow
Эпизодическое использование — команда до 10 человек с 100-500 запросами в день

Для всех остальных команд open-source self-hosted — выгодная и compliant альтернатива.

Что обычно недооценивают

MoE-архитектура у Qwen 3 и DeepSeek R1. Активные параметры в разы меньше total — это значит inference быстрее чем кажется по размеру. Qwen 3 235B-A22B инферит со скоростью dense-22B модели, при этом качество как у dense-100B+.

Скорость обновления. В open-source моделях новые версии выходят каждые 3-6 месяцев. Llama 3.3 → 3.4 → 4.0, Qwen 3 → 3.5 → 4. Stack должен поддерживать апгрейд одной командой (в AGmind — agmind upgrade).

Fine-tuning накопительно. Если вы fine-tune’ите модель на корпоративных данных — это ваш конкурентный актив. С каждым обновлением базовой модели ваши улучшения переносятся (LoRA-адаптеры).

Итог

Для большинства российских компаний в 2026 году выбор такой:

Llama 3.3 70B + Saiga fine-tune — entry-level, до 50 человек команды, любой customer-facing бот
Qwen 3 235B (1 нода) — mid-market, 50-200 человек, универсальный корпоративный AI
DeepSeek R1 — большие команды или специфические reasoning workloads, готовы к серьёзному CAPEX

В AGmind мы по дефолту используем Qwen 3 для большинства проектов — лучший трейд-офф. Для специальных кейсов (heavy reasoning) добавляем DeepSeek R1 как secondary модель.

Хотите проверить какая модель лучше под ваши задачи — пилот за 2-3 недели включает A/B сравнение моделей на ваших данных. От 100 000 ₽.

Связанные тексты: технический разбор стека на DGX Spark, сколько стоит сервер для AI, embedding модели для русского.

Базовые характеристики

Качество на русском: что говорят открытые лидерборды

Сложные аналитические задачи (юридические документы, финансовое моделирование, code review)

Разговорный русский

Длинный контекст (50+ страниц)

Особенности каждой

DeepSeek R1: reasoning-флагман

Qwen 3: универсал

Llama 3.3 70B: доступная и зрелая

Russian fine-tunes

Реальные требования к железу

Llama 3.3 70B

Qwen 3 235B-A22B

DeepSeek R1 671B

Сколько стоит владение open-source LLM за год?

Рекомендации под задачи

Когда не брать open-source

Что обычно недооценивают

Итог