Все кейсы
Производство обновлено

Техпомощник сервис-инженера: RAG по 800-страничной документации

Как производственное предприятие убрало 65% времени на поиск в документации и сократило повторные выезды на 40% — DeepSeek 7B на Mac Studio M3 Ultra on-site.

Время ответа на тех.запрос
-65%

с ~18 мин до ~6 мин среднее по 200 запросам

Повторные выезды
-40%

с 30 до 18 в месяц за первые 3 мес

Окупаемость
~7 месяцев

Mac Studio + интеграция + обучение (~1.1 млн ₽ total setup)

Производственное предприятие с 6 полевыми сервис-инженерами эксплуатирует оборудование, документация на которое занимает 800 страниц в PDF. Инженеры тратили до 20% рабочего времени — порядка 34 часов в месяц на человека — на поиск нужной процедуры в документации. Интернет на объектах нестабильный, передавать документацию в облако нельзя (коммерческая тайна).

Ситуация

Типичный сценарий: инженер приезжает на объект, сталкивается с нестандартным сигналом ошибки, звонит в офис, получает указание «посмотреть раздел 14.3.2» — и либо перелистывает PDF на планшете (медленно), либо едет обратно за бумажной документацией. При 100 сервисных выездах в месяц 30 заканчивались повторным визитом: инженер уехал без решения, потому что не нашёл нужную процедуру на месте.

Стоимость одного выезда — порядка 8 000 ₽ (топливо + время). Повторные выезды обходились ~240 000 ₽/мес.

Задача

Развернуть AI-помощника, который работает offline на планшете инженера: вопрос на естественном языке → ответ с точной ссылкой на раздел документации за 5–10 секунд. Без интернета, без передачи технической документации на сторонние серверы.

Решение

Mac Studio M3 Ultra разместили непосредственно на производственном объекте — в серверной комнате с нормальным питанием и температурным режимом. Планшеты инженеров подключаются к локальной Wi-Fi сети:

  • vLLM + DeepSeek 7B — генерация ответов; 5 GB весов в fp16, ~30–40 токенов/с на Mac M3 Ultra
  • bge-m3 + Qdrant — векторный поиск по 800-страничной документации; индексация 12 000 чанков (~400 токенов каждый, 100-токенный overlap для технических процедур)
  • Offline RAG — полностью без выхода в интернет; модели и индекс на локальном NVMe
  • Веб-интерфейс на планшет — адаптивный UI, работает через Wi-Fi на объекте

Окупаемость считали честно: Mac Studio M3 Ultra 600 000 ₽ + интеграция и сетевая инфраструктура 500 000 ₽ = 1 100 000 ₽ setup. Ежемесячная экономия: экономия времени инженеров (6 чел × 11.8 ч/мес × 1 200 ₽/ч = 84 960 ₽) + экономия на повторных выездах (12 отменённых визитов × 8 000 ₽ = 96 000 ₽) − эксплуатационные расходы (электроэнергия + обслуживание ~20 000 ₽/мес) = ~161 000 ₽/мес чистой экономии. Payback: 1 100 000 / 161 000 ≈ 6.8 месяца ≈ 7 месяцев.

Результат

За первые три месяца:

  • -65% время на поиск ответа — с ~18 минут до ~6 минут среднее по 200 замеренным запросам; инженер задаёт вопрос голосом или текстом, получает ответ с цитатой из документации
  • -40% повторных выездов — с 30 до 18 в месяц; инженер уходит с объекта с решением
  • Окупаемость ~7 месяцев при полной стоимости внедрения ~1.1 млн ₽ (оборудование + интеграция + обучение)

Дополнительный эффект: документация теперь живёт в единой структурированной базе — апдейт индекса при выходе новой версии техдока занимает 20 минут.

Стек

Решение работает полностью offline — ни один запрос не покидает локальную сеть объекта:

Что не сработало

Начали с DeepSeek 1.3B для скорости — модель галлюцинировала артикулы запчастей с частотой ~12%, что неприемлемо для сервисной документации. Апгрейд до DeepSeek 7B + переиндексирование с доменным инструкционным prefix. Cold-start на Mac Studio (5 GB весов) занимал 90 с от sleep — добавили --enforce-eager vLLM-флаг + cron-пинг каждые 5 мин в рабочую смену.

Стек

  • DeepSeek 7B
  • vLLM
  • bge-m3
  • Qdrant
  • Mac Studio M3 Ultra
  • Offline RAG (no internet)