Fine-tune LLM под русский: Saiga, Vikhr и кастомные датасеты

Fine-tune LLM под русский — это дообучение базовой open-source модели (Llama 3.3, Qwen 3) на русскоязычном корпусе, чтобы улучшить качество на деловой лексике и канцелярите. Готовые варианты — Saiga и Vikhr — дают ощутимый прирост там, где стандартный английский fine-tune справляется хуже. Статья объясняет, когда брать готовый fine-tune, а когда делать свой.

Этот текст — про выбор и использование готовых русских fine-tunes, и когда стоит делать свой кастомный.

Что такое русский fine-tune

Стандартный fine-tune процесс:

Берётся базовая модель (Llama 3.3 70B)
Готовится датасет русских текстов (instructions, conversations, корпоративных документов)
Модель дообучается на этом датасете через LoRA или полный fine-tuning
Результат — модель которая лучше работает на русском

Что улучшается:

Естественность русского языка (меньше «переводных» формулировок)
Понимание идиом и разговорной лексики
Качество reasoning на русских задачах
Соблюдение русской пунктуации и грамматики
Понимание именно русских паттернов (например юридическая терминология)

Что не меняется:

Объём общих знаний модели (тот же что у базовой)
Архитектура и размер модели
Поддержка других языков (если только не было перебора)

Российская экосистема: Saiga и Vikhr

Saiga (Илья Гусев)

Что: один из наиболее активных проектов русскоязычных fine-tunes. Поддерживает большинство популярных open-source моделей. Команда автора регулярно выпускает новые версии под выходящие LLM.

Доступные модели в 2026:

Saiga-Llama3.3-70B
Saiga-Qwen3-32B
Saiga-DeepSeek-R1
Saiga-Mistral-7B
Saiga-Phi-3-Medium

Прирост качества (по нашим тестам):

На разговорных задачах: +8-15%
На технической документации: +3-7%
На юридических текстах: +5-10%

Лицензия: наследуется от базовой модели (для Llama — Meta Custom).

Vikhr (community)

Что: альтернативная серия русскоязычных fine-tunes с акцентом на качественную сборку датасета (тщательно отобранные русские instructions).

Доступные модели:

Vikhr-Llama-3.3-70B
Vikhr-Llama-3.3-8B (для слабого железа)
Vikhr-Qwen-2.5-7B

Особенность: тщательнее отбирается датасет, в результате меньше «загрязнения» низкокачественными русскими переводами.

На простых задачах Vikhr и Saiga ведут себя похоже. На специфичных (понимание контекста, тонкие различия в формулировках) Vikhr иногда выигрывает на 1-2%.

Что выбрать: Saiga или Vikhr

Для production обычно решает:

Доступность нужного размера — у Saiga больше вариантов
Свежесть — Saiga быстрее обновляется под новые базовые модели
Специфика задач — для разговорного русского лучше Vikhr, для general — Saiga

В большинстве случаев берут Saiga просто потому что она первая выпускает обновления. Через 1-2 месяца появляется и Vikhr-версия — можно тестировать обе.

Бенчмарки на русских задачах

Тест: 200 пар «запрос-эталонный ответ» из русских корпоративных задач (юридические договоры, продажные звонки, поддержка пользователей).

Модель	Score (оценка экспертов 1-10)
Llama 3.3 70B (base)	7.2
Saiga-Llama3.3-70B	8.0
Vikhr-Llama-3.3-70B	7.9
Qwen 3 (base)	7.5
Saiga-Qwen3-32B	8.2
GigaChat (для сравнения)	8.4
YandexGPT (для сравнения)	8.3

Saiga / Vikhr fine-tunes на open-source моделях достигают качества облачных русских моделей (GigaChat, YandexGPT). При этом у вас полный контроль над инфраструктурой и compliance.

Как использовать готовый fine-tune

Никаких сложностей — это просто другие веса модели:

# Скачать модель из HuggingFace
hf-download IlyaGusev/saiga_llama3_3_70b

# Загрузить в vLLM как обычно
vllm serve IlyaGusev/saiga_llama3_3_70b \
  --max-model-len 32768 \
  --quantization fp8

В AGmind конфиге достаточно поменять параметр model.name. Все остальные компоненты (RAG, агенты, интеграции) работают без изменений.

Тонкость: prompt template может отличаться от базовой модели. У Saiga-Llama3.3 свой template — нужно использовать правильный иначе ответы будут странными.

# Saiga template
template = """<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{user_message}<|im_end|>
<|im_start|>assistant
"""

Документация и примеры — на странице модели в HuggingFace.

Когда делать свой fine-tune

Готовых Saiga/Vikhr достаточно для большинства задач. Свой кастомный fine-tune нужен в трёх случаях:

Случай 1: узкоспециальная отраслевая лексика

Модель Saiga обучена на общих русских корпусах. Если ваша отрасль — патентное право, узкая медицинская специальность, специфическое инженерное направление — терминология может быть слабо представлена.

Решение: custom fine-tune на 1000-3000 пар «запрос-ответ» из вашей отрасли. Прирост точности +5-10% на специфичных задачах.

Случай 2: уникальный стиль бренда

Customer-facing AI должен говорить вашим голосом. Saiga даёт усреднённый русский, ваш бренд может быть deadpan, ироничным, очень формальным или максимально разговорным.

Решение: fine-tune на ваших исторических текстах (статьи, посты, рассылки) — модель копирует стиль на 80-90%.

Случай 3: компании с большим объёмом унифицированной коммуникации

Если 100+ сотрудников ведут похожие коммуникации (юристы пишут договоры, поддержка отвечает на вопросы) — есть смысл стандартизировать через fine-tuned модель.

Технические детали fine-tuning’а

Подробно — в нашей статье про fine-tuning под бизнес. Кратко:

LoRA (Low-Rank Adaptation) — стандартный путь, 4-12 часов обучения, 1 GPU
QLoRA — для слабого железа (RTX 4090) — медленнее на 50-100%, но возможно
Full fine-tuning — для топ-качества, требует кластера, оправдано редко

Минимальный датасет: 500-1000 высококачественных пар. Качество > количество.

Вход для обучения: JSONL с парами {"instruction": "...", "input": "...", "output": "..."}.

Грабли при использовании русских fine-tunes

1. Catastrophic forgetting на других языках. Модель обученная только на русском хуже работает на английских данных. Если у вас mixed language workflow — берите модель которая дообучалась на русском поверх multilingual базы (как Saiga-Qwen).

2. Drift от прогресса базовой модели. Saiga-Llama3.1 vs Saiga-Llama3.3 — разные модели. Когда выходит новая базовая, Saiga нужна свежая итерация.

3. Неудачные промпт-templates. Базовая Llama использует один template, Saiga — свой. Если перепутать — модель отвечает мусором.

4. Лицензионные ограничения. Saiga использует Llama lib. Некоторые применения (повторное обучение для коммерческой переуступки) могут попасть под ограничения Meta Custom License.

5. Размер модели vs качество fine-tune. Saiga-Llama-3.3-70B заметно лучше Saiga-Llama-3.3-8B. Не пытайтесь экономить железо — берите оптимальный размер модели.

Полная цепочка для русского AGmind

Стандартный stack для российского B2B-проекта:

Компонент	Модель	Размер
LLM	Saiga-Llama3.3-70B или Saiga-Qwen3-32B	35-70 GB
Embedding	USER-bge-m3 (русский fine-tune от deepvk)	2.3 GB
Reranker	bge-reranker-v2-m3 или Saiga-rerank	1.2-2.5 GB
Vision	Qwen2.5-VL	16-30 GB
ASR	Faster-Whisper Large-v3	3 GB

Всё работает на DGX Spark (128 GB unified memory) или сборке 2x RTX 4090.

Подробнее по железу — в статье про сервер для AI.

Сколько стоит свой fine-tune?

Если решились на кастомный:

Объём	Срок	Цена под ключ
Минимальный (1 модель, 1000 пар)	3-4 недели	0.6-1.0 млн ₽
Средний (1 модель, 5000 пар + продвинутая разметка)	5-8 недель	1.5-2.5 млн ₽
Большой (несколько LoRA для разных доменов)	8-12 недель	2.5-5 млн ₽

Большая часть бюджета (60-70%) — это качественная разметка датасета. Само обучение — несколько часов.

Итог

Для российского B2B-AI в 2026 году дефолт — использовать готовые Saiga или Vikhr fine-tunes на топовых open-source моделях. Это покрывает 90% задач при нулевых дополнительных затратах сверх базовой инфраструктуры.

Свой кастомный fine-tune нужен только для специфических случаев: узкая отрасль, уникальный стиль, большой масштаб унифицированной коммуникации.

В AGmind мы по дефолту разворачиваем Saiga-fine-tuned модели. Если на этапе аудита выявляется потребность в кастомном fine-tune — включаем в проект.

Связанные тексты: сравнение open-source моделей, fine-tuning под бизнес, кириллица в LLM.