Whisper vs GigaAM vs Yandex SpeechKit: тестирование speech-to-text для русского бизнеса
Прямое сравнение трёх ключевых систем распознавания речи на корпоративных звонках. Реальные WER, скорость, ограничения. Self-hosted vs облако с цифрами 2026 года.
Whisper, GigaAM и Yandex SpeechKit — три главных варианта распознавания речи (ASR) для русского бизнеса в 2026 году: open-source self-hosted, гибридный от Сбера и облачный API. Выбор зависит от требований к приватности данных, бюджета и допустимого WER на вашем типе аудио. Статья разбирает каждый по публично верифицированным характеристикам и практическим сценариям.
Как сравнивать ASR-модели
WER (Word Error Rate) — главная метрика: процент слов распознанных неверно. Чем ниже, тем лучше. На что смотреть при выборе:
- Публичные бенчмарки — Whisper и GigaAM публикуют WER на конкретных named-датасетах в model card. Yandex SpeechKit публичных WER не публикует — официальных цифр нет.
- Ваш тип аудио — телефония (8 кГц) даёт худший WER, чем Zoom/Teams (16 кГц), чем диктофон. Бенчмарки на Common Voice или LibriSpeech не конвертируются напрямую в ваш кейс.
- RTF (real-time factor) — сколько секунд обработки на секунду аудио. RTF > 1 = медленнее реального времени; RTF = 4x = обрабатывает 4 сек аудио за 1 сек.
Whisper Large-v3 (OpenAI, self-hosted)
Что это: open-source ASR от OpenAI, распознаёт 99 языков. Whisper Large-v3 — самая большая и точная версия (3 GB).
Сильные стороны:
- Полностью open-source (MIT-like лицензия)
- Self-hosted — данные не уходят
- Хорошее качество на русском «из коробки»
- Поддержка разговорной речи и slang’а
- Готовые fine-tuned версии для отраслей (медицинская, юридическая)
Слабые стороны:
- Медленно: 1-1.5x real-time на одной A100
- Faster-Whisper (на CTranslate2) ускоряет до 4-6x, но качество чуть ниже
- На очень шумных линиях (телефония 8 кГц с эхом) WER растёт до 12-15%
Публично верифицированные WER (из model card и оригинальной статьи):
По данным OpenAI Whisper model card и оригинальной статьи (arxiv.org/abs/2212.04356), Whisper Large-v3 достигает WER около 6-9% на Common Voice Russian и схожих публичных датасетах разговорной речи. На телефонных записях (8 кГц) WER растёт из-за потери высоких частот — это справедливо для любой ASR-модели, не только Whisper.
С Faster-Whisper (CTranslate2 бэкенд): RTF улучшается в 4-6x при незначительном росте WER (+0.5-1 п.п.).
Когда брать: стандартный выбор для self-hosted в 2026. Лучший баланс качество-скорость-открытость-цена.
GigaAM (Сбер)
Что это: ASR-модель Сбера, доступна как self-hosted (после регистрации и согласия с лицензией) и через облачный API. Архитектура RNN-Transducer, оптимизирована под русский.
Сильные стороны:
- Топ-качество на русском среди публичных моделей
- Особенно хорошо на разговорной речи и региональных акцентах
- Меньше Whisper по размеру (800 MB vs 3 GB)
- Быстрее: 2-3x real-time
Слабые стороны:
- Лицензия требует регистрации в Сбер AI и согласия с условиями. Для commercial — платная подписка
- Медленнее обновляется чем Whisper (Sber выпускает новые версии раз в год)
- На английских вставках качество хуже Whisper (это русско-only модель)
Публично верифицированные характеристики:
По данным GigaAM model card, модель демонстрирует конкурентные результаты на русскоязычных бенчмарках. Архитектура RNN-Transducer даёт более высокий RTF по сравнению с Whisper — по данным модельной карты, обработка идёт быстрее реального времени (точные цифры зависят от железа). На узкорусских задачах GigaAM превосходит Whisper Large-v3 по качеству на разговорной речи с акцентами.
Когда брать: когда критично качество на русском и приемлемо лицензирование Сбера.
Yandex SpeechKit (cloud)
Что это: облачный ASR от Yandex Cloud. API-only, никакой self-hosted версии. Несколько моделей: realtime, async, premium.
Сильные стороны:
- Не требует своего железа — pay-as-you-go
- Хорошее качество на русском
- Быстрая интеграция через REST API
- Поддержка специальных доменов (медицина, банковский)
Слабые стороны:
- Cloud-only — данные звонков уходят в Yandex. Для compliance-чувствительных звонков (юристы, медицина, NDA-переговоры) непригодно
- Платно: 0.07-0.15 ₽ за секунду аудио. Для team на 100 звонков по 10 минут в день = 30K ₽/мес
- Зависимость от availability сервиса
- Vendor lock-in — переход на конкурента требует переписывания интеграций
Характеристики по официальной документации:
Yandex SpeechKit не публикует WER на стандартных датасетах — сравнение с Whisper и GigaAM по этой метрике невозможно на основе открытых данных. Официальная документация (cloud.yandex.ru/docs/speechkit) описывает точность качественно: «высокая точность распознавания русской речи», без конкретных WER-цифр на именованных датасетах.
Когда брать: малый бизнес без compliance-требований, когда не хочется возиться с self-hosted, эпизодическая нагрузка.
Сравнительная таблица
| Параметр | Whisper Large-v3 | GigaAM | Yandex SpeechKit |
|---|---|---|---|
| WER на публичных RU-датасетах | ~6-9% (Common Voice RU — model card) | конкурентный (model card) | не публикуется |
| Self-hosted | ✅ | ✅ (с подпиской Сбер AI) | ❌ |
| 152-ФЗ compliance | ✅ | ✅ | ⚠️ (РФ-локализация) |
| Лицензия для commercial | MIT | Sber AI Commercial | Yandex Cloud |
| Цена | 0₽ + железо | от 50 тыс ₽/мес подписка | usage-based |
| Скорость | 1.0-1.5x RT | быстрее реального времени | real-time |
| Поддержка длинных аудио | да | да | до 30 мин в одном запросе |
| Diarization (разделение говорящих) | через pyannote | встроено | встроено |
| Поддержка кастомного словаря | через fine-tuning | через подсказки | через словарь в API |
Гибридный подход (рекомендация)
В реальных проектах AGmind мы часто используем Whisper как основной + GigaAM как бекап для критичных кейсов:
- Whisper для массовой обработки звонков (большинство кейсов 4-7% WER приемлемо)
- GigaAM для критически важных звонков (ключевые переговоры, медицинские консультации) где каждые 1-2% WER значимы
Cost-effective: один self-hosted Whisper-сервер + опциональная подписка на GigaAM для специальных кейсов.
Что определяет качество ASR в реальности
Помимо самой модели, на качество влияют:
1. Качество записи. Чем выше sampling rate (16 кГц лучше 8 кГц), тем меньше WER. Telephone-grade аудио (8 кГц mono) даёт +2-3% WER против studio-grade.
2. Шумы и эхо. RNNoise или DeepFilterNet перед ASR снижает WER на 1-2%.
3. Кастомный словарь. Имена клиентов, названия продуктов, отраслевые термины — без custom dictionary ASR пишет фонетически близкие, но неправильные слова.
4. Diarization. Разделение по говорящим — отдельный pipeline. Pyannote (open-source) даёт хорошую diarization на 2-4 говорящих.
5. Постобработка. Расстановка пунктуации, нормализация чисел и дат, разрешение анафор — это уже после ASR через LLM.
Реальные стоимости полного pipeline’а
Для команды 5 продажников, 80 минут аудио в день:
Self-hosted Whisper:
- Сервер DGX Spark или RTX 4090 (включён в общий AGmind setup)
- OPEX: ~3000 ₽/мес электричества + поддержка
- Total: ~5000 ₽/мес если есть AGmind, или ~30 000 ₽/мес если ставить отдельно
GigaAM подписка:
- ~50 000 ₽/мес минимум
- Self-hosted GigaAM на собственном сервере: тот же hardware что Whisper, +50K подписка
Yandex SpeechKit:
- 80 мин × 5 человек × 22 рабочих дня = ~440 часов аудио в месяц
- 440 × 60 × 0.10 ₽ = ~26 000 ₽/мес
На больших объёмах (10+ часов аудио в день) self-hosted сильно выгоднее облачного.
Compliance: критичный момент
Yandex SpeechKit: записи звонков уходят в Yandex Cloud. Это:
- Локализация в РФ (соответствие 152-ФЗ ст. 18 ч. 5)
- Специальные категории (если в звонке обсуждается здоровье/национальность/политика — особый режим)
- Биометрия (голос — биометрические данные, требует отдельных согласий)
Для большинства B2B-звонков с юрлицами это работает. Для звонков с физлицами, особенно в регулируемых отраслях — критично оценивать.
Self-hosted (Whisper, GigaAM) — данные не уходят за пределы периметра. Compliance-проблем меньше.
Подробнее по compliance — в нашей статье про 152-ФЗ.
Что часто упускают
ASR — не финальная цель. Расшифровка нужна для downstream-задач: extraction информации в CRM, сводки, аналитика. Качество всей цепочки определяется не только WER ASR, но и качеством LLM-постобработки.
WER не равно «понятности». WER 6% — это 1 ошибка из 17 слов. Для understanding смысла достаточно. Для legal-grade транскрипции (где каждое слово важно) нужно WER ≤ 2%, что только с ручной правкой.
Доменный fine-tuning даёт +5-10%. Whisper + 500 размеченных пар на вашем домене = +1-2% WER absolute (с 7% до 5-6%). Окупается на больших объёмах.
Итог
В 2026 году для российского B2B sweet spot — Whisper Large-v3 self-hosted для большинства задач, опционально GigaAM для критичных. Yandex SpeechKit оправдан только для малых команд без compliance-требований и без больших объёмов.
В AGmind мы по дефолту используем Faster-Whisper Large-v3 как primary ASR. Качество 5-7% WER на типовых корпоративных звонках, ~4x real-time скорость, нулевые running costs (только электричество).
Хотите проверить на ваших звонках — демо за 2 рабочих дня с расшифровкой 20-50 ваших записей. Сравнение качества и реальные WER на ваших данных.
Связанные тексты: AI расшифровка звонков для отдела продаж, архитектура корпоративного AI, сервер для AI.