Все статьи
обновлено 8 мин

AI для расшифровки звонков: автоматический перенос разговоров в CRM

Как настроить AI-pipeline расшифровки звонков для отдела продаж: от audio-to-text до next-step в CRM. Качество, грабли, экономика на команде из 5 продавцов.

ai-для-продажрасшифровка-звонковcrmself-hosted-aiagmindspeech-to-text

ИИ для расшифровки звонков отдела продаж — это pipeline из ASR (автоматическое распознавание речи) и LLM, который переводит аудио в текст, извлекает договорённости и следующие шаги, и заносит их в CRM без участия менеджера. Для небольшой команды продажников это заменяет ручное прослушивание и уберегает от потери ключевых договорённостей.

Этот текст — про конкретный workflow для отдела продаж. Что технически работает, какие компромиссы по качеству и почему это не «магическая кнопка».

Что включает полный pipeline

Расшифровка звонков — это не один сервис, а связка из 6 шагов:

  1. Audio capture — запись звонков из CRM/телефонии
  2. Speech-to-text (ASR) — преобразование аудио в текст
  3. Spell normalization — исправление мисспеллов и форматирование
  4. Speaker diarization — разделение реплик по говорящим
  5. Information extraction — выделение ключевой информации (продукт, бюджет, возражения, next step)
  6. CRM integration — запись результата в нужную карточку клиента

Шаг 1. Запись звонков

Источники:

  • Корпоративная IP-телефония (Asterisk, Mango Office, UIS, Sipuni)
  • VoIP-интеграции CRM (AmoCRM, Bitrix24)
  • Web-звонки через Microsoft Teams / Zoom (если для B2B)

Формат: обычно WAV или MP3 16kHz mono. Для качественного ASR желательно как минимум 16kHz; 8kHz (стандарт телефонии) даёт +3-5% ошибок.

Объём данных: одна минута 16kHz mono = 1.9 МБ WAV. Команда из 5 человек по 8 часов = 80 рабочих часов = ~9 ГБ в день. Хранить нужно правильно: горячее хранение (последние 30 дней) на быстром SSD, холодное (квартал и больше) на медленном, и в зашифрованном виде.

Шаг 2. Speech-to-text

Для русского языка в self-hosted режиме реалистичных вариантов несколько:

МодельКачество (WER)СкоростьРазмер
Whisper Large-v35-7%1x real-time3 GB
Whisper Turbo6-9%8x real-time1.6 GB
GigaAM-RNNT (Sber)4-6%3x real-time0.8 GB
Faster-Whisper (CTranslate2)5-7%4x real-time3 GB

WER (Word Error Rate) — процент неправильно распознанных слов на типовом наборе. 5% означает 1 ошибка из 20 слов — это уровень который человеку нужно перечитать чтобы понять смысл, но не ломает обработку downstream.

Наш выбор: Faster-Whisper Large-v3 на CTranslate2 для общих случаев, GigaAM-RNNT для специфичных русских разговоров (Sber-специфическая модель, лучшее качество на русском у моделей такого размера).

GigaAM требует регистрации на Sber AI и согласия с лицензией. Для корпоративного использования это обычно не блокер.

Скорость на DGX Spark: ~2-4x real-time (минута звонка обрабатывается за 15-30 секунд). Это значит дневная партия из 80 рабочих часов обрабатывается за 20-40 минут.

Шаг 3. Speaker diarization

Задача: разделить расшифровку на реплики «продавец» и «клиент». Без этого текст превращается в неразборчивый монолит.

Используем: pyannote.audio или NeMo Diarization — обе работают на разделение от 2 до N говорящих с приемлемой точностью.

Качество diarization: 8-15% ошибок (включая incorrect speaker assignment). Для большинства downstream задач этого достаточно.

Output:

[00:00:01-00:00:08] Продавец: Здравствуйте, меня зовут Анна, вы оставляли заявку на сайте...
[00:00:09-00:00:14] Клиент: Да-да, помню. Расскажите про условия...

Шаг 4. Information extraction через LLM

Задача: из расшифровки выделить структурированную информацию для CRM:

  • Продукт/услуга обсуждался ли
  • Бюджет клиента (если упомянут)
  • Возражения которые были высказаны
  • Next step договорённости
  • Эмоциональный тон разговора (positive/neutral/negative)
  • Ключевые слова для тегирования

Как: отправляем расшифровку в локальную LLM (Llama 70B / Qwen 32B) с промптом-инструкцией. Промпт примерно такой:

Ниже расшифровка телефонного разговора между продавцом и клиентом.

Извлеки следующие данные в JSON:
- product: о каком продукте/услуге шла речь
- budget: бюджет клиента (если упомянут)
- objections: список возражений клиента (если были)
- next_step: что договорились делать дальше
- mood: positive | neutral | negative
- keywords: 3-5 ключевых тем разговора

Если информация не упомянута — null. Не выдумывай.

Расшифровка:
[текст]

LLM возвращает JSON, который дальше идёт прямо в CRM через API.

Точность извлечения: 85-95% на типовых разговорах. На сложных (несколько договорённостей, путаные клиенты) — 70-80%. Поэтому всегда оставляем human-in-the-loop: ассистент видит результаты, может поправить.

Шаг 5. CRM integration

API-вызовы в:

  • AmoCRM — обновление карточки сделки, добавление примечания, изменение этапа воронки
  • Bitrix24 — то же через REST API, плюс задача для следующего шага
  • HubSpot, Salesforce — для англоязычных компаний

Минимальная схема:

Звонок завершился → audio в S3 → ASR → diarization → 
Extraction LLM → JSON → API call CRM → 
карточка сделки обновлена + создана задача "next step"

Latency от завершения звонка до записи в CRM: 1-3 минуты для разговора в 5-15 минут.

Реальный кейс: команда из 5 продавцов

До внедрения:

  • 100 звонков в день, общая длительность 8-12 часов
  • РОП слушает выборочно 5-8 звонков (10-20 минут разбора)
  • 60-70% информации теряется в расшифровках которые продавцы делают сами в свободной форме
  • Качество next-step’ов в CRM — 50/50

После внедрения:

  • 100% звонков расшифровывается автоматически
  • Структурированные данные в CRM по каждому разговору
  • РОП видит дашборд: топ-5 возражений за неделю, динамика негативного тона по продавцам, конверсия по этапам воронки с учётом качества разговоров
  • Время РОПа на анализ: с 2 часов в день до 20 минут (только на проблемные звонки)
  • Конверсия растёт на 15-25% за квартал благодаря лучшему follow-up

Стоимость внедрения:

  • Установка self-hosted pipeline: одноразовый CAPEX в рамках полного AGmind проекта (1.5-2.5 млн ₽)
  • Если есть базовый AGmind — добавление call-pipeline: 200-400 тыс ₽
  • OPEX: только электричество (~100 ₽/мес)

Технические грабли

1. Шумные записи телефонии. Голос с шумами и эхо снижает WER до 15-20%. Решение: noise reduction перед ASR (RNNoise, DeepFilterNet).

2. Региональный акцент. Whisper хорошо справляется с московским/питерским русским, хуже с региональными акцентами и диалектами. GigaAM в этом смысле сильнее (тренировался на более разнообразном корпусе).

3. Спецтерминология. Если в продажах используются термины из узкой ниши (медицина, юриспруденция, IT) — без custom fine-tuning ASR будет искажать. Решение: fine-tuning Whisper на 500-1000 примерах терминологии (LoRA, 1-2 дня работы).

4. Длинные звонки. Звонки 30+ минут лучше резать на чанки по 5-10 минут с overlap’ом, иначе extraction LLM теряет связи в начале разговора.

5. Compliance. Запись разговоров требует уведомления собеседника + согласия на обработку голосовых данных (биометрия по 152-ФЗ). На старте проекта обязательно проверяется юристом.

Что НЕ автоматизируется

  • Качественная критика разговора — почему продавец упустил клиента, что нужно было сказать иначе. Это работа РОПа с реальной экспертизой.
  • Эмоциональная поддержка клиента в кризисе — AI не заменит живое участие.
  • Фиксация устных договорённостей юридического характера — нужна письменная фиксация для compliance.

Итог

AI-pipeline расшифровки звонков — один из самых ROI-positive use-case’ов корпоративного AI. На команде 5 продавцов экономия 100+ человеко-часов в месяц у РОПа плюс системный рост конверсии благодаря лучшему follow-up. Технически — задача недели разработки в рамках более общего AGmind-проекта.

Подходит особенно хорошо когда уже есть AGmind для других задач (юристы, поддержка, аналитика) — добавление call-pipeline на тот же стек дешевле чем отдельное решение.

Хотите проверить на ваших звонках — пилот за 2-3 недели от 100 000 ₽. Присылаете 20-50 записей разговоров, мы делаем стенд с расшифровкой и extraction.

Расшифровка звонков — одна из точек применения. Как ИИ-помощник закрывает продажи и другие отделы в рамках одного стека — читайте корпоративный ИИ-помощник в продажах и других отделах.

Связанные тексты: полный pipeline корпоративного AI-помощника, план внедрения на 6 недель.