Техпомощник сервис-инженера: RAG по 800-страничной документации
Как производственное предприятие убрало 65% времени на поиск в документации и сократило повторные выезды на 40% — DeepSeek 7B на Mac Studio M3 Ultra on-site.
- Время ответа на тех.запрос
- -65%
- Повторные выезды
- -40%
- Окупаемость
- ~7 месяцев
с ~18 мин до ~6 мин среднее по 200 запросам
с 30 до 18 в месяц за первые 3 мес
Mac Studio + интеграция + обучение (~1.1 млн ₽ total setup)
Производственное предприятие с 6 полевыми сервис-инженерами эксплуатирует оборудование, документация на которое занимает 800 страниц в PDF. Инженеры тратили до 20% рабочего времени — порядка 34 часов в месяц на человека — на поиск нужной процедуры в документации. Интернет на объектах нестабильный, передавать документацию в облако нельзя (коммерческая тайна).
Ситуация
Типичный сценарий: инженер приезжает на объект, сталкивается с нестандартным сигналом ошибки, звонит в офис, получает указание «посмотреть раздел 14.3.2» — и либо перелистывает PDF на планшете (медленно), либо едет обратно за бумажной документацией. При 100 сервисных выездах в месяц 30 заканчивались повторным визитом: инженер уехал без решения, потому что не нашёл нужную процедуру на месте.
Стоимость одного выезда — порядка 8 000 ₽ (топливо + время). Повторные выезды обходились ~240 000 ₽/мес.
Задача
Развернуть AI-помощника, который работает offline на планшете инженера: вопрос на естественном языке → ответ с точной ссылкой на раздел документации за 5–10 секунд. Без интернета, без передачи технической документации на сторонние серверы.
Решение
Mac Studio M3 Ultra разместили непосредственно на производственном объекте — в серверной комнате с нормальным питанием и температурным режимом. Планшеты инженеров подключаются к локальной Wi-Fi сети:
- vLLM + DeepSeek 7B — генерация ответов; 5 GB весов в fp16, ~30–40 токенов/с на Mac M3 Ultra
- bge-m3 + Qdrant — векторный поиск по 800-страничной документации; индексация 12 000 чанков (~400 токенов каждый, 100-токенный overlap для технических процедур)
- Offline RAG — полностью без выхода в интернет; модели и индекс на локальном NVMe
- Веб-интерфейс на планшет — адаптивный UI, работает через Wi-Fi на объекте
Окупаемость считали честно: Mac Studio M3 Ultra 600 000 ₽ + интеграция и сетевая инфраструктура 500 000 ₽ = 1 100 000 ₽ setup. Ежемесячная экономия: экономия времени инженеров (6 чел × 11.8 ч/мес × 1 200 ₽/ч = 84 960 ₽) + экономия на повторных выездах (12 отменённых визитов × 8 000 ₽ = 96 000 ₽) − эксплуатационные расходы (электроэнергия + обслуживание ~20 000 ₽/мес) = ~161 000 ₽/мес чистой экономии. Payback: 1 100 000 / 161 000 ≈ 6.8 месяца ≈ 7 месяцев.
Результат
За первые три месяца:
- -65% время на поиск ответа — с ~18 минут до ~6 минут среднее по 200 замеренным запросам; инженер задаёт вопрос голосом или текстом, получает ответ с цитатой из документации
- -40% повторных выездов — с 30 до 18 в месяц; инженер уходит с объекта с решением
- Окупаемость ~7 месяцев при полной стоимости внедрения ~1.1 млн ₽ (оборудование + интеграция + обучение)
Дополнительный эффект: документация теперь живёт в единой структурированной базе — апдейт индекса при выходе новой версии техдока занимает 20 минут.
Стек
Решение работает полностью offline — ни один запрос не покидает локальную сеть объекта:
Что не сработало
Начали с DeepSeek 1.3B для скорости — модель галлюцинировала артикулы запчастей с частотой ~12%, что неприемлемо для сервисной документации. Апгрейд до DeepSeek 7B + переиндексирование с доменным инструкционным prefix. Cold-start на Mac Studio (5 GB весов) занимал 90 с от sleep — добавили --enforce-eager vLLM-флаг + cron-пинг каждые 5 мин в рабочую смену.
Стек
- DeepSeek 7B
- vLLM
- bge-m3
- Qdrant
- Mac Studio M3 Ultra
- Offline RAG (no internet)