AI для расшифровки звонков: автоматический перенос разговоров в CRM

ИИ для расшифровки звонков отдела продаж — это pipeline из ASR (автоматическое распознавание речи) и LLM, который переводит аудио в текст, извлекает договорённости и следующие шаги, и заносит их в CRM без участия менеджера. Для небольшой команды продажников это заменяет ручное прослушивание и уберегает от потери ключевых договорённостей.

Этот текст — про конкретный workflow для отдела продаж. Что технически работает, какие компромиссы по качеству и почему это не «магическая кнопка».

Что включает полный pipeline

Расшифровка звонков — это не один сервис, а связка из 6 шагов:

Audio capture — запись звонков из CRM/телефонии
Speech-to-text (ASR) — преобразование аудио в текст
Spell normalization — исправление мисспеллов и форматирование
Speaker diarization — разделение реплик по говорящим
Information extraction — выделение ключевой информации (продукт, бюджет, возражения, next step)
CRM integration — запись результата в нужную карточку клиента

Шаг 1. Запись звонков

Источники:

Корпоративная IP-телефония (Asterisk, Mango Office, UIS, Sipuni)
VoIP-интеграции CRM (AmoCRM, Bitrix24)
Web-звонки через Microsoft Teams / Zoom (если для B2B)

Формат: обычно WAV или MP3 16kHz mono. Для качественного ASR желательно как минимум 16kHz; 8kHz (стандарт телефонии) даёт +3-5% ошибок.

Объём данных: одна минута 16kHz mono = 1.9 МБ WAV. Команда из 5 человек по 8 часов = 80 рабочих часов = ~9 ГБ в день. Хранить нужно правильно: горячее хранение (последние 30 дней) на быстром SSD, холодное (квартал и больше) на медленном, и в зашифрованном виде.

Шаг 2. Speech-to-text

Для русского языка в self-hosted режиме реалистичных вариантов несколько:

Модель	Качество (WER)	Скорость	Размер
Whisper Large-v3	5-7%	1x real-time	3 GB
Whisper Turbo	6-9%	8x real-time	1.6 GB
GigaAM-RNNT (Sber)	4-6%	3x real-time	0.8 GB
Faster-Whisper (CTranslate2)	5-7%	4x real-time	3 GB

WER (Word Error Rate) — процент неправильно распознанных слов на типовом наборе. 5% означает 1 ошибка из 20 слов — это уровень который человеку нужно перечитать чтобы понять смысл, но не ломает обработку downstream.

Наш выбор: Faster-Whisper Large-v3 на CTranslate2 для общих случаев, GigaAM-RNNT для специфичных русских разговоров (Sber-специфическая модель, лучшее качество на русском у моделей такого размера).

GigaAM требует регистрации на Sber AI и согласия с лицензией. Для корпоративного использования это обычно не блокер.

Скорость на DGX Spark: ~2-4x real-time (минута звонка обрабатывается за 15-30 секунд). Это значит дневная партия из 80 рабочих часов обрабатывается за 20-40 минут.

Шаг 3. Speaker diarization

Задача: разделить расшифровку на реплики «продавец» и «клиент». Без этого текст превращается в неразборчивый монолит.

Используем: pyannote.audio или NeMo Diarization — обе работают на разделение от 2 до N говорящих с приемлемой точностью.

Качество diarization: 8-15% ошибок (включая incorrect speaker assignment). Для большинства downstream задач этого достаточно.

Output:

[00:00:01-00:00:08] Продавец: Здравствуйте, меня зовут Анна, вы оставляли заявку на сайте...
[00:00:09-00:00:14] Клиент: Да-да, помню. Расскажите про условия...

Шаг 4. Information extraction через LLM

Задача: из расшифровки выделить структурированную информацию для CRM:

Продукт/услуга обсуждался ли
Бюджет клиента (если упомянут)
Возражения которые были высказаны
Next step договорённости
Эмоциональный тон разговора (positive/neutral/negative)
Ключевые слова для тегирования

Как: отправляем расшифровку в локальную LLM (Llama 70B / Qwen 32B) с промптом-инструкцией. Промпт примерно такой:

Ниже расшифровка телефонного разговора между продавцом и клиентом.

Извлеки следующие данные в JSON:
- product: о каком продукте/услуге шла речь
- budget: бюджет клиента (если упомянут)
- objections: список возражений клиента (если были)
- next_step: что договорились делать дальше
- mood: positive | neutral | negative
- keywords: 3-5 ключевых тем разговора

Если информация не упомянута — null. Не выдумывай.

Расшифровка:
[текст]

LLM возвращает JSON, который дальше идёт прямо в CRM через API.

Точность извлечения: 85-95% на типовых разговорах. На сложных (несколько договорённостей, путаные клиенты) — 70-80%. Поэтому всегда оставляем human-in-the-loop: ассистент видит результаты, может поправить.

Шаг 5. CRM integration

API-вызовы в:

AmoCRM — обновление карточки сделки, добавление примечания, изменение этапа воронки
Bitrix24 — то же через REST API, плюс задача для следующего шага
HubSpot, Salesforce — для англоязычных компаний

Минимальная схема:

Звонок завершился → audio в S3 → ASR → diarization → 
Extraction LLM → JSON → API call CRM → 
карточка сделки обновлена + создана задача "next step"

Latency от завершения звонка до записи в CRM: 1-3 минуты для разговора в 5-15 минут.

Реальный кейс: команда из 5 продавцов

До внедрения:

100 звонков в день, общая длительность 8-12 часов
РОП слушает выборочно 5-8 звонков (10-20 минут разбора)
60-70% информации теряется в расшифровках которые продавцы делают сами в свободной форме
Качество next-step’ов в CRM — 50/50

После внедрения:

100% звонков расшифровывается автоматически
Структурированные данные в CRM по каждому разговору
РОП видит дашборд: топ-5 возражений за неделю, динамика негативного тона по продавцам, конверсия по этапам воронки с учётом качества разговоров
Время РОПа на анализ: с 2 часов в день до 20 минут (только на проблемные звонки)
Конверсия растёт на 15-25% за квартал благодаря лучшему follow-up

Стоимость внедрения:

Установка self-hosted pipeline: одноразовый CAPEX в рамках полного AGmind проекта (1.5-2.5 млн ₽)
Если есть базовый AGmind — добавление call-pipeline: 200-400 тыс ₽
OPEX: только электричество (~100 ₽/мес)

Технические грабли

1. Шумные записи телефонии. Голос с шумами и эхо снижает WER до 15-20%. Решение: noise reduction перед ASR (RNNoise, DeepFilterNet).

2. Региональный акцент. Whisper хорошо справляется с московским/питерским русским, хуже с региональными акцентами и диалектами. GigaAM в этом смысле сильнее (тренировался на более разнообразном корпусе).

3. Спецтерминология. Если в продажах используются термины из узкой ниши (медицина, юриспруденция, IT) — без custom fine-tuning ASR будет искажать. Решение: fine-tuning Whisper на 500-1000 примерах терминологии (LoRA, 1-2 дня работы).

4. Длинные звонки. Звонки 30+ минут лучше резать на чанки по 5-10 минут с overlap’ом, иначе extraction LLM теряет связи в начале разговора.

5. Compliance. Запись разговоров требует уведомления собеседника + согласия на обработку голосовых данных (биометрия по 152-ФЗ). На старте проекта обязательно проверяется юристом.

Что НЕ автоматизируется

Качественная критика разговора — почему продавец упустил клиента, что нужно было сказать иначе. Это работа РОПа с реальной экспертизой.
Эмоциональная поддержка клиента в кризисе — AI не заменит живое участие.
Фиксация устных договорённостей юридического характера — нужна письменная фиксация для compliance.

Итог

AI-pipeline расшифровки звонков — один из самых ROI-positive use-case’ов корпоративного AI. На команде 5 продавцов экономия 100+ человеко-часов в месяц у РОПа плюс системный рост конверсии благодаря лучшему follow-up. Технически — задача недели разработки в рамках более общего AGmind-проекта.

Подходит особенно хорошо когда уже есть AGmind для других задач (юристы, поддержка, аналитика) — добавление call-pipeline на тот же стек дешевле чем отдельное решение.

Хотите проверить на ваших звонках — пилот за 2-3 недели от 100 000 ₽. Присылаете 20-50 записей разговоров, мы делаем стенд с расшифровкой и extraction.

Расшифровка звонков — одна из точек применения. Как ИИ-помощник закрывает продажи и другие отделы в рамках одного стека — читайте корпоративный ИИ-помощник в продажах и других отделах.

Связанные тексты: полный pipeline корпоративного AI-помощника, план внедрения на 6 недель.