Fine-tune LLM под русский: Saiga, Vikhr и кастомные датасеты
Готовые русскоязычные fine-tunes Llama, Qwen, DeepSeek от RU-сообщества. Что дают, как использовать, когда стоит делать собственный.
Fine-tune LLM под русский — это дообучение базовой open-source модели (Llama 3.3, Qwen 3) на русскоязычном корпусе, чтобы улучшить качество на деловой лексике и канцелярите. Готовые варианты — Saiga и Vikhr — дают ощутимый прирост там, где стандартный английский fine-tune справляется хуже. Статья объясняет, когда брать готовый fine-tune, а когда делать свой.
Этот текст — про выбор и использование готовых русских fine-tunes, и когда стоит делать свой кастомный.
Что такое русский fine-tune
Стандартный fine-tune процесс:
- Берётся базовая модель (Llama 3.3 70B)
- Готовится датасет русских текстов (instructions, conversations, корпоративных документов)
- Модель дообучается на этом датасете через LoRA или полный fine-tuning
- Результат — модель которая лучше работает на русском
Что улучшается:
- Естественность русского языка (меньше «переводных» формулировок)
- Понимание идиом и разговорной лексики
- Качество reasoning на русских задачах
- Соблюдение русской пунктуации и грамматики
- Понимание именно русских паттернов (например юридическая терминология)
Что не меняется:
- Объём общих знаний модели (тот же что у базовой)
- Архитектура и размер модели
- Поддержка других языков (если только не было перебора)
Российская экосистема: Saiga и Vikhr
Saiga (Илья Гусев)
Что: один из наиболее активных проектов русскоязычных fine-tunes. Поддерживает большинство популярных open-source моделей. Команда автора регулярно выпускает новые версии под выходящие LLM.
Доступные модели в 2026:
- Saiga-Llama3.3-70B
- Saiga-Qwen3-32B
- Saiga-DeepSeek-R1
- Saiga-Mistral-7B
- Saiga-Phi-3-Medium
Прирост качества (по нашим тестам):
- На разговорных задачах: +8-15%
- На технической документации: +3-7%
- На юридических текстах: +5-10%
Лицензия: наследуется от базовой модели (для Llama — Meta Custom).
Vikhr (community)
Что: альтернативная серия русскоязычных fine-tunes с акцентом на качественную сборку датасета (тщательно отобранные русские instructions).
Доступные модели:
- Vikhr-Llama-3.3-70B
- Vikhr-Llama-3.3-8B (для слабого железа)
- Vikhr-Qwen-2.5-7B
Особенность: тщательнее отбирается датасет, в результате меньше «загрязнения» низкокачественными русскими переводами.
На простых задачах Vikhr и Saiga ведут себя похоже. На специфичных (понимание контекста, тонкие различия в формулировках) Vikhr иногда выигрывает на 1-2%.
Что выбрать: Saiga или Vikhr
Для production обычно решает:
- Доступность нужного размера — у Saiga больше вариантов
- Свежесть — Saiga быстрее обновляется под новые базовые модели
- Специфика задач — для разговорного русского лучше Vikhr, для general — Saiga
В большинстве случаев берут Saiga просто потому что она первая выпускает обновления. Через 1-2 месяца появляется и Vikhr-версия — можно тестировать обе.
Бенчмарки на русских задачах
Тест: 200 пар «запрос-эталонный ответ» из русских корпоративных задач (юридические договоры, продажные звонки, поддержка пользователей).
| Модель | Score (оценка экспертов 1-10) |
|---|---|
| Llama 3.3 70B (base) | 7.2 |
| Saiga-Llama3.3-70B | 8.0 |
| Vikhr-Llama-3.3-70B | 7.9 |
| Qwen 3 (base) | 7.5 |
| Saiga-Qwen3-32B | 8.2 |
| GigaChat (для сравнения) | 8.4 |
| YandexGPT (для сравнения) | 8.3 |
Saiga / Vikhr fine-tunes на open-source моделях достигают качества облачных русских моделей (GigaChat, YandexGPT). При этом у вас полный контроль над инфраструктурой и compliance.
Как использовать готовый fine-tune
Никаких сложностей — это просто другие веса модели:
# Скачать модель из HuggingFace
hf-download IlyaGusev/saiga_llama3_3_70b
# Загрузить в vLLM как обычно
vllm serve IlyaGusev/saiga_llama3_3_70b \
--max-model-len 32768 \
--quantization fp8
В AGmind конфиге достаточно поменять параметр model.name. Все остальные компоненты (RAG, агенты, интеграции) работают без изменений.
Тонкость: prompt template может отличаться от базовой модели. У Saiga-Llama3.3 свой template — нужно использовать правильный иначе ответы будут странными.
# Saiga template
template = """<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{user_message}<|im_end|>
<|im_start|>assistant
"""
Документация и примеры — на странице модели в HuggingFace.
Когда делать свой fine-tune
Готовых Saiga/Vikhr достаточно для большинства задач. Свой кастомный fine-tune нужен в трёх случаях:
Случай 1: узкоспециальная отраслевая лексика
Модель Saiga обучена на общих русских корпусах. Если ваша отрасль — патентное право, узкая медицинская специальность, специфическое инженерное направление — терминология может быть слабо представлена.
Решение: custom fine-tune на 1000-3000 пар «запрос-ответ» из вашей отрасли. Прирост точности +5-10% на специфичных задачах.
Случай 2: уникальный стиль бренда
Customer-facing AI должен говорить вашим голосом. Saiga даёт усреднённый русский, ваш бренд может быть deadpan, ироничным, очень формальным или максимально разговорным.
Решение: fine-tune на ваших исторических текстах (статьи, посты, рассылки) — модель копирует стиль на 80-90%.
Случай 3: компании с большим объёмом унифицированной коммуникации
Если 100+ сотрудников ведут похожие коммуникации (юристы пишут договоры, поддержка отвечает на вопросы) — есть смысл стандартизировать через fine-tuned модель.
Технические детали fine-tuning’а
Подробно — в нашей статье про fine-tuning под бизнес. Кратко:
- LoRA (Low-Rank Adaptation) — стандартный путь, 4-12 часов обучения, 1 GPU
- QLoRA — для слабого железа (RTX 4090) — медленнее на 50-100%, но возможно
- Full fine-tuning — для топ-качества, требует кластера, оправдано редко
Минимальный датасет: 500-1000 высококачественных пар. Качество > количество.
Вход для обучения: JSONL с парами {"instruction": "...", "input": "...", "output": "..."}.
Грабли при использовании русских fine-tunes
1. Catastrophic forgetting на других языках. Модель обученная только на русском хуже работает на английских данных. Если у вас mixed language workflow — берите модель которая дообучалась на русском поверх multilingual базы (как Saiga-Qwen).
2. Drift от прогресса базовой модели. Saiga-Llama3.1 vs Saiga-Llama3.3 — разные модели. Когда выходит новая базовая, Saiga нужна свежая итерация.
3. Неудачные промпт-templates. Базовая Llama использует один template, Saiga — свой. Если перепутать — модель отвечает мусором.
4. Лицензионные ограничения. Saiga использует Llama lib. Некоторые применения (повторное обучение для коммерческой переуступки) могут попасть под ограничения Meta Custom License.
5. Размер модели vs качество fine-tune. Saiga-Llama-3.3-70B заметно лучше Saiga-Llama-3.3-8B. Не пытайтесь экономить железо — берите оптимальный размер модели.
Полная цепочка для русского AGmind
Стандартный stack для российского B2B-проекта:
| Компонент | Модель | Размер |
|---|---|---|
| LLM | Saiga-Llama3.3-70B или Saiga-Qwen3-32B | 35-70 GB |
| Embedding | USER-bge-m3 (русский fine-tune от deepvk) | 2.3 GB |
| Reranker | bge-reranker-v2-m3 или Saiga-rerank | 1.2-2.5 GB |
| Vision | Qwen2.5-VL | 16-30 GB |
| ASR | Faster-Whisper Large-v3 | 3 GB |
Всё работает на DGX Spark (128 GB unified memory) или сборке 2x RTX 4090.
Подробнее по железу — в статье про сервер для AI.
Сколько стоит свой fine-tune?
Если решились на кастомный:
| Объём | Срок | Цена под ключ |
|---|---|---|
| Минимальный (1 модель, 1000 пар) | 3-4 недели | 0.6-1.0 млн ₽ |
| Средний (1 модель, 5000 пар + продвинутая разметка) | 5-8 недель | 1.5-2.5 млн ₽ |
| Большой (несколько LoRA для разных доменов) | 8-12 недель | 2.5-5 млн ₽ |
Большая часть бюджета (60-70%) — это качественная разметка датасета. Само обучение — несколько часов.
Итог
Для российского B2B-AI в 2026 году дефолт — использовать готовые Saiga или Vikhr fine-tunes на топовых open-source моделях. Это покрывает 90% задач при нулевых дополнительных затратах сверх базовой инфраструктуры.
Свой кастомный fine-tune нужен только для специфических случаев: узкая отрасль, уникальный стиль, большой масштаб унифицированной коммуникации.
В AGmind мы по дефолту разворачиваем Saiga-fine-tuned модели. Если на этапе аудита выявляется потребность в кастомном fine-tune — включаем в проект.
Связанные тексты: сравнение open-source моделей, fine-tuning под бизнес, кириллица в LLM.