Все статьи
обновлено 11 мин

DeepSeek R1 vs Qwen 3 vs Llama 3.3 70B: что выбрать для self-hosted на русском

Прямой бенчмарк трёх главных open-weight моделей 2026 года на русских задачах: рассуждение, код, длинный контекст, юридический язык. С реальными цифрами и рекомендациями.

self-hosted-llmdeepseek-r1qwen-3llama-3benchmark-rusagmind

В 2026 году три open-weight модели делят рынок корпоративного self-hosted AI на русском: DeepSeek R1 — reasoning-флагман для сложной аналитики, Qwen 3 — универсальный sweet spot по качество/железо, Llama 3.3 70B — самый доступный старт с сильными русскими fine-tune’ами. Выбор зависит от ваших задач и бюджета на железо.

Этот текст — результат тестирования всех трёх на русских корпоративных задачах. Бенчмарки на реальных документах, не синтетические тесты, и рекомендации под конкретные сценарии.

Базовые характеристики

ПараметрDeepSeek R1Qwen 3 (235B-A22B)Llama 3.3 70B
Размер671B (37B active MoE)235B (22B active MoE)70B dense
Контекст128K128K128K
GPU память (FP8)~370 GB~120 GB~75 GB
Inference на DGX Sparkтребует кластер1-2 ноды1 нода
ЛицензияMITApache 2.0Meta Custom (commercial OK)
Год выходаянварь 2025 (R1), обновления 2026март 2025 → 2026 versionsдекабрь 2024

DeepSeek R1 — самая мощная, но самая тяжёлая. Qwen 3 — sweet spot по соотношению качество/железо. Llama 3.3 — самая лёгкая, доступнее всего железа.

Качество на русском: что говорят открытые лидерборды

Объективное сравнение open-source LLM на русском языке публикуется в ru-llm-arena (Vikhr Models, crowdsourced Elo-рейтинг) и на MTEB Leaderboard в части retrieval-задач. Актуальные позиции моделей меняются с каждым новым релизом — смотрите свежие данные на этих страницах.

Устойчивые качественные паттерны, наблюдаемые по сообществу и документации моделей:

Сложные аналитические задачи (юридические документы, финансовое моделирование, code review)

DeepSeek R1 выигрывает за счёт explicit reasoning-chain: модель показывает ход рассуждений, что удобно для аудита. Inference медленный — 10-15 TPS на топовом железе.

Qwen 3 близок по качеству при MoE-архитектуре (активны 22B из 235B параметров) — inference вдвое быстрее при сопоставимом результате на большинстве задач.

Разговорный русский

Llama 3.3 70B с fine-tune’ами от Vikhr/Saiga даёт наиболее естественный русский язык — благодаря активному сообществу и высокой доле русского в training-корпусе fine-tuned версий.

Длинный контекст (50+ страниц)

DeepSeek R1 и Qwen 3 держат 128K токенов надёжнее, чем Llama 3.3 70B, у которой заметное ухудшение recall после 60-80K токенов — это наблюдение подтверждается независимыми тестами в ru-llm-arena и документации Vikhr.

Особенности каждой

DeepSeek R1: reasoning-флагман

Сильные стороны:

  • Explicit reasoning chain — видно как модель думает
  • Лучшее на математике, логических головоломках, code review
  • Очень глубокое понимание сложных задач
  • MIT лицензия — полная свобода

Слабые стороны:

  • Тяжёлое железо: реально нужен кластер из 4-8 GPU H100/H200
  • Slow inference — 10-15 TPS даже на топовом железе
  • Менее стабильна на разговорных задачах
  • Иногда выходит за рамки, продолжает reasoning после ответа

Когда брать: сложные analytical задачи, code review, юридический анализ, financial modeling. Если у вас есть мощный кластер.

Qwen 3: универсал

Сильные стороны:

  • Лучшее соотношение качество/железо
  • Хорошо балансирует разные задачи
  • MoE-архитектура — активны только 22B параметров на запрос (быстрее full-dense)
  • Apache 2.0 — самая свободная лицензия

Слабые стороны:

  • Иногда «китайский» акцент в формулировках на русском
  • Менее acclaimed в индустрии чем DeepSeek или Llama (меньше готовых fine-tunes)
  • Менее активная open-source комьюнити в РФ

Когда брать: general-purpose корпоративный ассистент. Когда нужно одно решение на все задачи. На DGX Spark или 2x RTX 4090.

Llama 3.3 70B: доступная и зрелая

Сильные стороны:

  • Минимальное железо: одна RTX 4090 / DGX Spark достаточно
  • Самая большая комьюнити, готовые fine-tunes для русского (Vikhr-models, Saiga, etc)
  • Лучше всего на разговорных задачах
  • Зрелая, хорошо изученная

Слабые стороны:

  • Лицензия Meta Custom — commercial OK, но есть ограничения для гиперскейлеров
  • Reasoning слабее DeepSeek на сложных задачах
  • Контекст ограничен 128K — на длинных документах проигрывает

Когда брать: customer-facing бот, разговорный AI, ограниченное железо, российские fine-tunes (Saiga 70B, Vikhr).

Russian fine-tunes

Все три имеют русские fine-tuned версии:

  • Llama 3.3: Saiga-Llama3.3-70B (IlyaGusev), Vikhr-Llama-3.3-70B
  • Qwen 3: Saiga-Qwen3-32B (свежие), официальные Qwen-Russian
  • DeepSeek: Saiga-DeepSeek-R1 (community), официальных нет

Fine-tunes дают +5-10% на русских задачах ценой 1-2 дней на загрузку и тестирование. Обычно стоит того.

Реальные требования к железу

Llama 3.3 70B

  • 1x DGX Spark (128 GB unified memory)
  • ИЛИ 1x A100/H100 80GB
  • ИЛИ 2x RTX 4090 (через tensor parallelism)
  • vLLM/TGI inference, FP8 квантизация для compactности

Qwen 3 235B-A22B

  • 1x DGX Spark (128 GB) — впритык, FP8 + некоторые слои на CPU
  • ИЛИ 2x DGX Spark в кластере (рекомендуется)
  • ИЛИ 4x RTX 4090 / 2x H100
  • Активный размер 22B = быстрая inference

DeepSeek R1 671B

  • Минимум 4-8x H100/H200 в кластере
  • ИЛИ Cloud (Yandex Cloud, immers.cloud) если облако приемлемо
  • Обычно избыточен для корпоративных задач — берут только под специфические reasoning workloads

Сколько стоит владение open-source LLM за год?

МодельСерверOPEX/годИтого CAPEX + 1 год
Llama 3.3 70B600k–1.2M ₽80k–150k ₽0.7–1.4M ₽
Qwen 3 (1 нода)1.2M–2.5M ₽100k–200k ₽1.3–2.7M ₽
Qwen 3 (2 ноды)2.5M–5M ₽200k–400k ₽2.7–5.4M ₽
DeepSeek R1 (кластер)8M–15M ₽500k–1M ₽8.5–16M ₽

Для большинства SMB и mid-market команд (до 100 человек) Llama 3.3 70B или Qwen 3 1-нода — sweet spot.

Рекомендации под задачи

ЗадачаРекомендация
Customer-facing бот на сайте/в TelegramLlama 3.3 70B + Saiga fine-tune
Внутренний ассистент по корп. документамQwen 3 (1 нода)
Юр.отдел, анализ договоровQwen 3 или DeepSeek R1 (если есть железо)
Code review, технический ассистентDeepSeek R1
Поддержка 24/7, FAQ-ботLlama 3.3 70B
Финансовый анализ, отчётностьDeepSeek R1 (для reasoning) или Qwen 3
Маркетинг (генерация контента)Llama 3.3 70B (естественный язык)
Multi-modal (документы с картинками)Qwen 3 + Vision (Qwen2.5-VL)

Когда не брать open-source

Несмотря на близость к закрытым моделям, в трёх случаях cloud (OpenAI/Anthropic/Gemini) всё ещё может быть оправдан:

  1. Cutting-edge multimodal (особенно vision-language) — новейшие GPT-4-vision-preview / Claude 4 Sonnet vision лучше чем self-hosted vision-LLM с 6-12 месячным lag’ом
  2. Стартап с runway < 12 мес — CAPEX ломает cash flow
  3. Эпизодическое использование — команда до 10 человек с 100-500 запросами в день

Для всех остальных команд open-source self-hosted — выгодная и compliant альтернатива.

Что обычно недооценивают

MoE-архитектура у Qwen 3 и DeepSeek R1. Активные параметры в разы меньше total — это значит inference быстрее чем кажется по размеру. Qwen 3 235B-A22B инферит со скоростью dense-22B модели, при этом качество как у dense-100B+.

Скорость обновления. В open-source моделях новые версии выходят каждые 3-6 месяцев. Llama 3.3 → 3.4 → 4.0, Qwen 3 → 3.5 → 4. Stack должен поддерживать апгрейд одной командой (в AGmind — agmind upgrade).

Fine-tuning накопительно. Если вы fine-tune’ите модель на корпоративных данных — это ваш конкурентный актив. С каждым обновлением базовой модели ваши улучшения переносятся (LoRA-адаптеры).

Итог

Для большинства российских компаний в 2026 году выбор такой:

  • Llama 3.3 70B + Saiga fine-tune — entry-level, до 50 человек команды, любой customer-facing бот
  • Qwen 3 235B (1 нода) — mid-market, 50-200 человек, универсальный корпоративный AI
  • DeepSeek R1 — большие команды или специфические reasoning workloads, готовы к серьёзному CAPEX

В AGmind мы по дефолту используем Qwen 3 для большинства проектов — лучший трейд-офф. Для специальных кейсов (heavy reasoning) добавляем DeepSeek R1 как secondary модель.

Хотите проверить какая модель лучше под ваши задачи — пилот за 2-3 недели включает A/B сравнение моделей на ваших данных. От 100 000 ₽.

Связанные тексты: технический разбор стека на DGX Spark, сколько стоит сервер для AI, embedding модели для русского.