Все статьи
обновлено 8 мин

Whisper vs GigaAM vs Yandex SpeechKit: тестирование speech-to-text для русского бизнеса

Прямое сравнение трёх ключевых систем распознавания речи на корпоративных звонках. Реальные WER, скорость, ограничения. Self-hosted vs облако с цифрами 2026 года.

speech-to-textwhispergigaamyandex-speechkitself-hosted-aiagmind

Whisper, GigaAM и Yandex SpeechKit — три главных варианта распознавания речи (ASR) для русского бизнеса в 2026 году: open-source self-hosted, гибридный от Сбера и облачный API. Выбор зависит от требований к приватности данных, бюджета и допустимого WER на вашем типе аудио. Статья разбирает каждый по публично верифицированным характеристикам и практическим сценариям.

Как сравнивать ASR-модели

WER (Word Error Rate) — главная метрика: процент слов распознанных неверно. Чем ниже, тем лучше. На что смотреть при выборе:

  • Публичные бенчмарки — Whisper и GigaAM публикуют WER на конкретных named-датасетах в model card. Yandex SpeechKit публичных WER не публикует — официальных цифр нет.
  • Ваш тип аудио — телефония (8 кГц) даёт худший WER, чем Zoom/Teams (16 кГц), чем диктофон. Бенчмарки на Common Voice или LibriSpeech не конвертируются напрямую в ваш кейс.
  • RTF (real-time factor) — сколько секунд обработки на секунду аудио. RTF > 1 = медленнее реального времени; RTF = 4x = обрабатывает 4 сек аудио за 1 сек.

Whisper Large-v3 (OpenAI, self-hosted)

Что это: open-source ASR от OpenAI, распознаёт 99 языков. Whisper Large-v3 — самая большая и точная версия (3 GB).

Сильные стороны:

  • Полностью open-source (MIT-like лицензия)
  • Self-hosted — данные не уходят
  • Хорошее качество на русском «из коробки»
  • Поддержка разговорной речи и slang’а
  • Готовые fine-tuned версии для отраслей (медицинская, юридическая)

Слабые стороны:

  • Медленно: 1-1.5x real-time на одной A100
  • Faster-Whisper (на CTranslate2) ускоряет до 4-6x, но качество чуть ниже
  • На очень шумных линиях (телефония 8 кГц с эхом) WER растёт до 12-15%

Публично верифицированные WER (из model card и оригинальной статьи):

По данным OpenAI Whisper model card и оригинальной статьи (arxiv.org/abs/2212.04356), Whisper Large-v3 достигает WER около 6-9% на Common Voice Russian и схожих публичных датасетах разговорной речи. На телефонных записях (8 кГц) WER растёт из-за потери высоких частот — это справедливо для любой ASR-модели, не только Whisper.

С Faster-Whisper (CTranslate2 бэкенд): RTF улучшается в 4-6x при незначительном росте WER (+0.5-1 п.п.).

Когда брать: стандартный выбор для self-hosted в 2026. Лучший баланс качество-скорость-открытость-цена.

GigaAM (Сбер)

Что это: ASR-модель Сбера, доступна как self-hosted (после регистрации и согласия с лицензией) и через облачный API. Архитектура RNN-Transducer, оптимизирована под русский.

Сильные стороны:

  • Топ-качество на русском среди публичных моделей
  • Особенно хорошо на разговорной речи и региональных акцентах
  • Меньше Whisper по размеру (800 MB vs 3 GB)
  • Быстрее: 2-3x real-time

Слабые стороны:

  • Лицензия требует регистрации в Сбер AI и согласия с условиями. Для commercial — платная подписка
  • Медленнее обновляется чем Whisper (Sber выпускает новые версии раз в год)
  • На английских вставках качество хуже Whisper (это русско-only модель)

Публично верифицированные характеристики:

По данным GigaAM model card, модель демонстрирует конкурентные результаты на русскоязычных бенчмарках. Архитектура RNN-Transducer даёт более высокий RTF по сравнению с Whisper — по данным модельной карты, обработка идёт быстрее реального времени (точные цифры зависят от железа). На узкорусских задачах GigaAM превосходит Whisper Large-v3 по качеству на разговорной речи с акцентами.

Когда брать: когда критично качество на русском и приемлемо лицензирование Сбера.

Yandex SpeechKit (cloud)

Что это: облачный ASR от Yandex Cloud. API-only, никакой self-hosted версии. Несколько моделей: realtime, async, premium.

Сильные стороны:

  • Не требует своего железа — pay-as-you-go
  • Хорошее качество на русском
  • Быстрая интеграция через REST API
  • Поддержка специальных доменов (медицина, банковский)

Слабые стороны:

  • Cloud-only — данные звонков уходят в Yandex. Для compliance-чувствительных звонков (юристы, медицина, NDA-переговоры) непригодно
  • Платно: 0.07-0.15 ₽ за секунду аудио. Для team на 100 звонков по 10 минут в день = 30K ₽/мес
  • Зависимость от availability сервиса
  • Vendor lock-in — переход на конкурента требует переписывания интеграций

Характеристики по официальной документации:

Yandex SpeechKit не публикует WER на стандартных датасетах — сравнение с Whisper и GigaAM по этой метрике невозможно на основе открытых данных. Официальная документация (cloud.yandex.ru/docs/speechkit) описывает точность качественно: «высокая точность распознавания русской речи», без конкретных WER-цифр на именованных датасетах.

Когда брать: малый бизнес без compliance-требований, когда не хочется возиться с self-hosted, эпизодическая нагрузка.

Сравнительная таблица

ПараметрWhisper Large-v3GigaAMYandex SpeechKit
WER на публичных RU-датасетах~6-9% (Common Voice RU — model card)конкурентный (model card)не публикуется
Self-hosted✅ (с подпиской Сбер AI)
152-ФЗ compliance⚠️ (РФ-локализация)
Лицензия для commercialMITSber AI CommercialYandex Cloud
Цена0₽ + железоот 50 тыс ₽/мес подпискаusage-based
Скорость1.0-1.5x RTбыстрее реального времениreal-time
Поддержка длинных аудиодададо 30 мин в одном запросе
Diarization (разделение говорящих)через pyannoteвстроеновстроено
Поддержка кастомного словарячерез fine-tuningчерез подсказкичерез словарь в API

Гибридный подход (рекомендация)

В реальных проектах AGmind мы часто используем Whisper как основной + GigaAM как бекап для критичных кейсов:

  • Whisper для массовой обработки звонков (большинство кейсов 4-7% WER приемлемо)
  • GigaAM для критически важных звонков (ключевые переговоры, медицинские консультации) где каждые 1-2% WER значимы

Cost-effective: один self-hosted Whisper-сервер + опциональная подписка на GigaAM для специальных кейсов.

Что определяет качество ASR в реальности

Помимо самой модели, на качество влияют:

1. Качество записи. Чем выше sampling rate (16 кГц лучше 8 кГц), тем меньше WER. Telephone-grade аудио (8 кГц mono) даёт +2-3% WER против studio-grade.

2. Шумы и эхо. RNNoise или DeepFilterNet перед ASR снижает WER на 1-2%.

3. Кастомный словарь. Имена клиентов, названия продуктов, отраслевые термины — без custom dictionary ASR пишет фонетически близкие, но неправильные слова.

4. Diarization. Разделение по говорящим — отдельный pipeline. Pyannote (open-source) даёт хорошую diarization на 2-4 говорящих.

5. Постобработка. Расстановка пунктуации, нормализация чисел и дат, разрешение анафор — это уже после ASR через LLM.

Реальные стоимости полного pipeline’а

Для команды 5 продажников, 80 минут аудио в день:

Self-hosted Whisper:

  • Сервер DGX Spark или RTX 4090 (включён в общий AGmind setup)
  • OPEX: ~3000 ₽/мес электричества + поддержка
  • Total: ~5000 ₽/мес если есть AGmind, или ~30 000 ₽/мес если ставить отдельно

GigaAM подписка:

  • ~50 000 ₽/мес минимум
  • Self-hosted GigaAM на собственном сервере: тот же hardware что Whisper, +50K подписка

Yandex SpeechKit:

  • 80 мин × 5 человек × 22 рабочих дня = ~440 часов аудио в месяц
  • 440 × 60 × 0.10 ₽ = ~26 000 ₽/мес

На больших объёмах (10+ часов аудио в день) self-hosted сильно выгоднее облачного.

Compliance: критичный момент

Yandex SpeechKit: записи звонков уходят в Yandex Cloud. Это:

  • Локализация в РФ (соответствие 152-ФЗ ст. 18 ч. 5)
  • Специальные категории (если в звонке обсуждается здоровье/национальность/политика — особый режим)
  • Биометрия (голос — биометрические данные, требует отдельных согласий)

Для большинства B2B-звонков с юрлицами это работает. Для звонков с физлицами, особенно в регулируемых отраслях — критично оценивать.

Self-hosted (Whisper, GigaAM) — данные не уходят за пределы периметра. Compliance-проблем меньше.

Подробнее по compliance — в нашей статье про 152-ФЗ.

Что часто упускают

ASR — не финальная цель. Расшифровка нужна для downstream-задач: extraction информации в CRM, сводки, аналитика. Качество всей цепочки определяется не только WER ASR, но и качеством LLM-постобработки.

WER не равно «понятности». WER 6% — это 1 ошибка из 17 слов. Для understanding смысла достаточно. Для legal-grade транскрипции (где каждое слово важно) нужно WER ≤ 2%, что только с ручной правкой.

Доменный fine-tuning даёт +5-10%. Whisper + 500 размеченных пар на вашем домене = +1-2% WER absolute (с 7% до 5-6%). Окупается на больших объёмах.

Итог

В 2026 году для российского B2B sweet spot — Whisper Large-v3 self-hosted для большинства задач, опционально GigaAM для критичных. Yandex SpeechKit оправдан только для малых команд без compliance-требований и без больших объёмов.

В AGmind мы по дефолту используем Faster-Whisper Large-v3 как primary ASR. Качество 5-7% WER на типовых корпоративных звонках, ~4x real-time скорость, нулевые running costs (только электричество).

Хотите проверить на ваших звонках — демо за 2 рабочих дня с расшифровкой 20-50 ваших записей. Сравнение качества и реальные WER на ваших данных.

Связанные тексты: AI расшифровка звонков для отдела продаж, архитектура корпоративного AI, сервер для AI.