AI для расшифровки звонков: автоматический перенос разговоров в CRM
Как настроить AI-pipeline расшифровки звонков для отдела продаж: от audio-to-text до next-step в CRM. Качество, грабли, экономика на команде из 5 продавцов.
ИИ для расшифровки звонков отдела продаж — это pipeline из ASR (автоматическое распознавание речи) и LLM, который переводит аудио в текст, извлекает договорённости и следующие шаги, и заносит их в CRM без участия менеджера. Для небольшой команды продажников это заменяет ручное прослушивание и уберегает от потери ключевых договорённостей.
Этот текст — про конкретный workflow для отдела продаж. Что технически работает, какие компромиссы по качеству и почему это не «магическая кнопка».
Что включает полный pipeline
Расшифровка звонков — это не один сервис, а связка из 6 шагов:
- Audio capture — запись звонков из CRM/телефонии
- Speech-to-text (ASR) — преобразование аудио в текст
- Spell normalization — исправление мисспеллов и форматирование
- Speaker diarization — разделение реплик по говорящим
- Information extraction — выделение ключевой информации (продукт, бюджет, возражения, next step)
- CRM integration — запись результата в нужную карточку клиента
Шаг 1. Запись звонков
Источники:
- Корпоративная IP-телефония (Asterisk, Mango Office, UIS, Sipuni)
- VoIP-интеграции CRM (AmoCRM, Bitrix24)
- Web-звонки через Microsoft Teams / Zoom (если для B2B)
Формат: обычно WAV или MP3 16kHz mono. Для качественного ASR желательно как минимум 16kHz; 8kHz (стандарт телефонии) даёт +3-5% ошибок.
Объём данных: одна минута 16kHz mono = 1.9 МБ WAV. Команда из 5 человек по 8 часов = 80 рабочих часов = ~9 ГБ в день. Хранить нужно правильно: горячее хранение (последние 30 дней) на быстром SSD, холодное (квартал и больше) на медленном, и в зашифрованном виде.
Шаг 2. Speech-to-text
Для русского языка в self-hosted режиме реалистичных вариантов несколько:
| Модель | Качество (WER) | Скорость | Размер |
|---|---|---|---|
| Whisper Large-v3 | 5-7% | 1x real-time | 3 GB |
| Whisper Turbo | 6-9% | 8x real-time | 1.6 GB |
| GigaAM-RNNT (Sber) | 4-6% | 3x real-time | 0.8 GB |
| Faster-Whisper (CTranslate2) | 5-7% | 4x real-time | 3 GB |
WER (Word Error Rate) — процент неправильно распознанных слов на типовом наборе. 5% означает 1 ошибка из 20 слов — это уровень который человеку нужно перечитать чтобы понять смысл, но не ломает обработку downstream.
Наш выбор: Faster-Whisper Large-v3 на CTranslate2 для общих случаев, GigaAM-RNNT для специфичных русских разговоров (Sber-специфическая модель, лучшее качество на русском у моделей такого размера).
GigaAM требует регистрации на Sber AI и согласия с лицензией. Для корпоративного использования это обычно не блокер.
Скорость на DGX Spark: ~2-4x real-time (минута звонка обрабатывается за 15-30 секунд). Это значит дневная партия из 80 рабочих часов обрабатывается за 20-40 минут.
Шаг 3. Speaker diarization
Задача: разделить расшифровку на реплики «продавец» и «клиент». Без этого текст превращается в неразборчивый монолит.
Используем: pyannote.audio или NeMo Diarization — обе работают на разделение от 2 до N говорящих с приемлемой точностью.
Качество diarization: 8-15% ошибок (включая incorrect speaker assignment). Для большинства downstream задач этого достаточно.
Output:
[00:00:01-00:00:08] Продавец: Здравствуйте, меня зовут Анна, вы оставляли заявку на сайте...
[00:00:09-00:00:14] Клиент: Да-да, помню. Расскажите про условия...
Шаг 4. Information extraction через LLM
Задача: из расшифровки выделить структурированную информацию для CRM:
- Продукт/услуга обсуждался ли
- Бюджет клиента (если упомянут)
- Возражения которые были высказаны
- Next step договорённости
- Эмоциональный тон разговора (positive/neutral/negative)
- Ключевые слова для тегирования
Как: отправляем расшифровку в локальную LLM (Llama 70B / Qwen 32B) с промптом-инструкцией. Промпт примерно такой:
Ниже расшифровка телефонного разговора между продавцом и клиентом.
Извлеки следующие данные в JSON:
- product: о каком продукте/услуге шла речь
- budget: бюджет клиента (если упомянут)
- objections: список возражений клиента (если были)
- next_step: что договорились делать дальше
- mood: positive | neutral | negative
- keywords: 3-5 ключевых тем разговора
Если информация не упомянута — null. Не выдумывай.
Расшифровка:
[текст]
LLM возвращает JSON, который дальше идёт прямо в CRM через API.
Точность извлечения: 85-95% на типовых разговорах. На сложных (несколько договорённостей, путаные клиенты) — 70-80%. Поэтому всегда оставляем human-in-the-loop: ассистент видит результаты, может поправить.
Шаг 5. CRM integration
API-вызовы в:
- AmoCRM — обновление карточки сделки, добавление примечания, изменение этапа воронки
- Bitrix24 — то же через REST API, плюс задача для следующего шага
- HubSpot, Salesforce — для англоязычных компаний
Минимальная схема:
Звонок завершился → audio в S3 → ASR → diarization →
Extraction LLM → JSON → API call CRM →
карточка сделки обновлена + создана задача "next step"
Latency от завершения звонка до записи в CRM: 1-3 минуты для разговора в 5-15 минут.
Реальный кейс: команда из 5 продавцов
До внедрения:
- 100 звонков в день, общая длительность 8-12 часов
- РОП слушает выборочно 5-8 звонков (10-20 минут разбора)
- 60-70% информации теряется в расшифровках которые продавцы делают сами в свободной форме
- Качество next-step’ов в CRM — 50/50
После внедрения:
- 100% звонков расшифровывается автоматически
- Структурированные данные в CRM по каждому разговору
- РОП видит дашборд: топ-5 возражений за неделю, динамика негативного тона по продавцам, конверсия по этапам воронки с учётом качества разговоров
- Время РОПа на анализ: с 2 часов в день до 20 минут (только на проблемные звонки)
- Конверсия растёт на 15-25% за квартал благодаря лучшему follow-up
Стоимость внедрения:
- Установка self-hosted pipeline: одноразовый CAPEX в рамках полного AGmind проекта (1.5-2.5 млн ₽)
- Если есть базовый AGmind — добавление call-pipeline: 200-400 тыс ₽
- OPEX: только электричество (~100 ₽/мес)
Технические грабли
1. Шумные записи телефонии. Голос с шумами и эхо снижает WER до 15-20%. Решение: noise reduction перед ASR (RNNoise, DeepFilterNet).
2. Региональный акцент. Whisper хорошо справляется с московским/питерским русским, хуже с региональными акцентами и диалектами. GigaAM в этом смысле сильнее (тренировался на более разнообразном корпусе).
3. Спецтерминология. Если в продажах используются термины из узкой ниши (медицина, юриспруденция, IT) — без custom fine-tuning ASR будет искажать. Решение: fine-tuning Whisper на 500-1000 примерах терминологии (LoRA, 1-2 дня работы).
4. Длинные звонки. Звонки 30+ минут лучше резать на чанки по 5-10 минут с overlap’ом, иначе extraction LLM теряет связи в начале разговора.
5. Compliance. Запись разговоров требует уведомления собеседника + согласия на обработку голосовых данных (биометрия по 152-ФЗ). На старте проекта обязательно проверяется юристом.
Что НЕ автоматизируется
- Качественная критика разговора — почему продавец упустил клиента, что нужно было сказать иначе. Это работа РОПа с реальной экспертизой.
- Эмоциональная поддержка клиента в кризисе — AI не заменит живое участие.
- Фиксация устных договорённостей юридического характера — нужна письменная фиксация для compliance.
Итог
AI-pipeline расшифровки звонков — один из самых ROI-positive use-case’ов корпоративного AI. На команде 5 продавцов экономия 100+ человеко-часов в месяц у РОПа плюс системный рост конверсии благодаря лучшему follow-up. Технически — задача недели разработки в рамках более общего AGmind-проекта.
Подходит особенно хорошо когда уже есть AGmind для других задач (юристы, поддержка, аналитика) — добавление call-pipeline на тот же стек дешевле чем отдельное решение.
Хотите проверить на ваших звонках — пилот за 2-3 недели от 100 000 ₽. Присылаете 20-50 записей разговоров, мы делаем стенд с расшифровкой и extraction.
Расшифровка звонков — одна из точек применения. Как ИИ-помощник закрывает продажи и другие отделы в рамках одного стека — читайте корпоративный ИИ-помощник в продажах и других отделах.
Связанные тексты: полный pipeline корпоративного AI-помощника, план внедрения на 6 недель.