DeepSeek R1 vs Qwen 3 vs Llama 3.3 70B: что выбрать для self-hosted на русском
Прямой бенчмарк трёх главных open-weight моделей 2026 года на русских задачах: рассуждение, код, длинный контекст, юридический язык. С реальными цифрами и рекомендациями.
В 2026 году три open-weight модели делят рынок корпоративного self-hosted AI на русском: DeepSeek R1 — reasoning-флагман для сложной аналитики, Qwen 3 — универсальный sweet spot по качество/железо, Llama 3.3 70B — самый доступный старт с сильными русскими fine-tune’ами. Выбор зависит от ваших задач и бюджета на железо.
Этот текст — результат тестирования всех трёх на русских корпоративных задачах. Бенчмарки на реальных документах, не синтетические тесты, и рекомендации под конкретные сценарии.
Базовые характеристики
| Параметр | DeepSeek R1 | Qwen 3 (235B-A22B) | Llama 3.3 70B |
|---|---|---|---|
| Размер | 671B (37B active MoE) | 235B (22B active MoE) | 70B dense |
| Контекст | 128K | 128K | 128K |
| GPU память (FP8) | ~370 GB | ~120 GB | ~75 GB |
| Inference на DGX Spark | требует кластер | 1-2 ноды | 1 нода |
| Лицензия | MIT | Apache 2.0 | Meta Custom (commercial OK) |
| Год выхода | январь 2025 (R1), обновления 2026 | март 2025 → 2026 versions | декабрь 2024 |
DeepSeek R1 — самая мощная, но самая тяжёлая. Qwen 3 — sweet spot по соотношению качество/железо. Llama 3.3 — самая лёгкая, доступнее всего железа.
Качество на русском: что говорят открытые лидерборды
Объективное сравнение open-source LLM на русском языке публикуется в ru-llm-arena (Vikhr Models, crowdsourced Elo-рейтинг) и на MTEB Leaderboard в части retrieval-задач. Актуальные позиции моделей меняются с каждым новым релизом — смотрите свежие данные на этих страницах.
Устойчивые качественные паттерны, наблюдаемые по сообществу и документации моделей:
Сложные аналитические задачи (юридические документы, финансовое моделирование, code review)
DeepSeek R1 выигрывает за счёт explicit reasoning-chain: модель показывает ход рассуждений, что удобно для аудита. Inference медленный — 10-15 TPS на топовом железе.
Qwen 3 близок по качеству при MoE-архитектуре (активны 22B из 235B параметров) — inference вдвое быстрее при сопоставимом результате на большинстве задач.
Разговорный русский
Llama 3.3 70B с fine-tune’ами от Vikhr/Saiga даёт наиболее естественный русский язык — благодаря активному сообществу и высокой доле русского в training-корпусе fine-tuned версий.
Длинный контекст (50+ страниц)
DeepSeek R1 и Qwen 3 держат 128K токенов надёжнее, чем Llama 3.3 70B, у которой заметное ухудшение recall после 60-80K токенов — это наблюдение подтверждается независимыми тестами в ru-llm-arena и документации Vikhr.
Особенности каждой
DeepSeek R1: reasoning-флагман
Сильные стороны:
- Explicit reasoning chain — видно как модель думает
- Лучшее на математике, логических головоломках, code review
- Очень глубокое понимание сложных задач
- MIT лицензия — полная свобода
Слабые стороны:
- Тяжёлое железо: реально нужен кластер из 4-8 GPU H100/H200
- Slow inference — 10-15 TPS даже на топовом железе
- Менее стабильна на разговорных задачах
- Иногда выходит за рамки, продолжает reasoning после ответа
Когда брать: сложные analytical задачи, code review, юридический анализ, financial modeling. Если у вас есть мощный кластер.
Qwen 3: универсал
Сильные стороны:
- Лучшее соотношение качество/железо
- Хорошо балансирует разные задачи
- MoE-архитектура — активны только 22B параметров на запрос (быстрее full-dense)
- Apache 2.0 — самая свободная лицензия
Слабые стороны:
- Иногда «китайский» акцент в формулировках на русском
- Менее acclaimed в индустрии чем DeepSeek или Llama (меньше готовых fine-tunes)
- Менее активная open-source комьюнити в РФ
Когда брать: general-purpose корпоративный ассистент. Когда нужно одно решение на все задачи. На DGX Spark или 2x RTX 4090.
Llama 3.3 70B: доступная и зрелая
Сильные стороны:
- Минимальное железо: одна RTX 4090 / DGX Spark достаточно
- Самая большая комьюнити, готовые fine-tunes для русского (Vikhr-models, Saiga, etc)
- Лучше всего на разговорных задачах
- Зрелая, хорошо изученная
Слабые стороны:
- Лицензия Meta Custom — commercial OK, но есть ограничения для гиперскейлеров
- Reasoning слабее DeepSeek на сложных задачах
- Контекст ограничен 128K — на длинных документах проигрывает
Когда брать: customer-facing бот, разговорный AI, ограниченное железо, российские fine-tunes (Saiga 70B, Vikhr).
Russian fine-tunes
Все три имеют русские fine-tuned версии:
- Llama 3.3: Saiga-Llama3.3-70B (IlyaGusev), Vikhr-Llama-3.3-70B
- Qwen 3: Saiga-Qwen3-32B (свежие), официальные Qwen-Russian
- DeepSeek: Saiga-DeepSeek-R1 (community), официальных нет
Fine-tunes дают +5-10% на русских задачах ценой 1-2 дней на загрузку и тестирование. Обычно стоит того.
Реальные требования к железу
Llama 3.3 70B
- 1x DGX Spark (128 GB unified memory)
- ИЛИ 1x A100/H100 80GB
- ИЛИ 2x RTX 4090 (через tensor parallelism)
- vLLM/TGI inference, FP8 квантизация для compactности
Qwen 3 235B-A22B
- 1x DGX Spark (128 GB) — впритык, FP8 + некоторые слои на CPU
- ИЛИ 2x DGX Spark в кластере (рекомендуется)
- ИЛИ 4x RTX 4090 / 2x H100
- Активный размер 22B = быстрая inference
DeepSeek R1 671B
- Минимум 4-8x H100/H200 в кластере
- ИЛИ Cloud (Yandex Cloud, immers.cloud) если облако приемлемо
- Обычно избыточен для корпоративных задач — берут только под специфические reasoning workloads
Сколько стоит владение open-source LLM за год?
| Модель | Сервер | OPEX/год | Итого CAPEX + 1 год |
|---|---|---|---|
| Llama 3.3 70B | 600k–1.2M ₽ | 80k–150k ₽ | 0.7–1.4M ₽ |
| Qwen 3 (1 нода) | 1.2M–2.5M ₽ | 100k–200k ₽ | 1.3–2.7M ₽ |
| Qwen 3 (2 ноды) | 2.5M–5M ₽ | 200k–400k ₽ | 2.7–5.4M ₽ |
| DeepSeek R1 (кластер) | 8M–15M ₽ | 500k–1M ₽ | 8.5–16M ₽ |
Для большинства SMB и mid-market команд (до 100 человек) Llama 3.3 70B или Qwen 3 1-нода — sweet spot.
Рекомендации под задачи
| Задача | Рекомендация |
|---|---|
| Customer-facing бот на сайте/в Telegram | Llama 3.3 70B + Saiga fine-tune |
| Внутренний ассистент по корп. документам | Qwen 3 (1 нода) |
| Юр.отдел, анализ договоров | Qwen 3 или DeepSeek R1 (если есть железо) |
| Code review, технический ассистент | DeepSeek R1 |
| Поддержка 24/7, FAQ-бот | Llama 3.3 70B |
| Финансовый анализ, отчётность | DeepSeek R1 (для reasoning) или Qwen 3 |
| Маркетинг (генерация контента) | Llama 3.3 70B (естественный язык) |
| Multi-modal (документы с картинками) | Qwen 3 + Vision (Qwen2.5-VL) |
Когда не брать open-source
Несмотря на близость к закрытым моделям, в трёх случаях cloud (OpenAI/Anthropic/Gemini) всё ещё может быть оправдан:
- Cutting-edge multimodal (особенно vision-language) — новейшие GPT-4-vision-preview / Claude 4 Sonnet vision лучше чем self-hosted vision-LLM с 6-12 месячным lag’ом
- Стартап с runway < 12 мес — CAPEX ломает cash flow
- Эпизодическое использование — команда до 10 человек с 100-500 запросами в день
Для всех остальных команд open-source self-hosted — выгодная и compliant альтернатива.
Что обычно недооценивают
MoE-архитектура у Qwen 3 и DeepSeek R1. Активные параметры в разы меньше total — это значит inference быстрее чем кажется по размеру. Qwen 3 235B-A22B инферит со скоростью dense-22B модели, при этом качество как у dense-100B+.
Скорость обновления. В open-source моделях новые версии выходят каждые 3-6 месяцев. Llama 3.3 → 3.4 → 4.0, Qwen 3 → 3.5 → 4. Stack должен поддерживать апгрейд одной командой (в AGmind — agmind upgrade).
Fine-tuning накопительно. Если вы fine-tune’ите модель на корпоративных данных — это ваш конкурентный актив. С каждым обновлением базовой модели ваши улучшения переносятся (LoRA-адаптеры).
Итог
Для большинства российских компаний в 2026 году выбор такой:
- Llama 3.3 70B + Saiga fine-tune — entry-level, до 50 человек команды, любой customer-facing бот
- Qwen 3 235B (1 нода) — mid-market, 50-200 человек, универсальный корпоративный AI
- DeepSeek R1 — большие команды или специфические reasoning workloads, готовы к серьёзному CAPEX
В AGmind мы по дефолту используем Qwen 3 для большинства проектов — лучший трейд-офф. Для специальных кейсов (heavy reasoning) добавляем DeepSeek R1 как secondary модель.
Хотите проверить какая модель лучше под ваши задачи — пилот за 2-3 недели включает A/B сравнение моделей на ваших данных. От 100 000 ₽.
Связанные тексты: технический разбор стека на DGX Spark, сколько стоит сервер для AI, embedding модели для русского.