Pilot-проект AI за 4 недели: scope, метрики, типичные грабли
Как запустить pilot AI-внедрения за 4 недели и получить понятный go/no-go результат. Скоуп, метрики, бюджет, типичные провалы.
Пилотный проект ИИ за 4 недели — это жёсткий формат: один бизнес-процесс, одна числовая метрика с зафиксированным baseline, реальные пользователи с третьей недели и go/no-go решение в пятницу четвёртой. Стоит 300–700 тыс. ₽ — в разы дешевле года блужданий. Это статья про методику: что работает в малом и среднем бизнесе.
Это статья — методика как проводить такой pilot. Не «теоретически идеальный roadmap», а что реально работает в малом и среднем бизнесе.
Зачем pilot
Альтернативы pilot:
A) Сразу production-проект. Минусы: 4–6 месяцев до понимания «работает ли вообще», 2–4 млн ₽ риска. Если задача оказалась не той — потеряли всё.
B) «Тестовый ChatGPT для команды». Минусы: нет метрики, нет ROI, через 3 месяца забыли. Маркетинговая активность.
C) Pilot с фокусом. Узкий scope, измеримая метрика, фиксированный срок. Если работает — расширяем. Если нет — закрываем без больших потерь.
Нормальная стоимость pilot — 300–700 тыс. ₽ за 4 недели. Если поставщик предлагает pilot за 50 тыс. — это не pilot, это демо. Если за 2 млн — это уже не pilot, а маленький production.
Главное правило: один use-case
Pilot не должен решать «несколько задач». Один use-case значит:
- Одна целевая аудитория (один отдел / одна роль)
- Один тип задачи (не “AI для саппорта И продаж”)
- Одна точка интеграции (одна система: только CRM, или только база знаний)
Примеры хороших scope для pilot:
- “AI отвечает на 100 типовых тикетов в саппорте за неделю и мы измеряем точность”
- “AI извлекает реквизиты из 200 счетов и мы сравниваем с эталоном”
- “AI готовит черновик ответа на письма коммерческого предложения, менеджер редактирует”
Примеры плохих scope:
- “AI помогает всему отделу” — всем = никому
- «Внедрить корпоративный ChatGPT» — это не задача, это инструмент
- “AI для повышения productivity” — нет метрики
Структура 4 недель
Неделя 1: scope + данные
Понедельник-среда:
- Зафиксировать use-case в одно предложение
- Определить метрику успеха (одну, числовую)
- Определить baseline (как было до)
- Идентифицировать данные: какие документы / тикеты / записи нужны
Четверг-пятница:
- Собрать тестовый набор: 100–200 примеров с эталонными ответами
- Проверить юридические аспекты: можно ли эти данные использовать для AI-обработки
Чек-листы окончания недели 1:
- Use-case в одном предложении
- Метрика — одна, числовая, с целевым значением
- Baseline измерен
- Тестовый набор 100+ примеров готов
- Согласие юристов / compliance на использование данных
Если хотя бы один пункт не закрыт — pilot стоп. Пока не закроете, дальше не идите.
Неделя 2: MVP
Понедельник-вторник:
- Развернуть LLM-сервер (один из вариантов): SaaS API (быстрее), self-hosted (если требует compliance)
- Подключить vector DB (если RAG) — Qdrant запускается за час
- Загрузить корпус документов / интегрировать с системой
Среда-четверг:
- Написать base промпт. Не идеальный — рабочий
- Прогнать на 20 примерах из тестового набора, посмотреть выход
- Итерации промпта: 5–10 раз минимум
Пятница:
- Прогнать MVP на полном тестовом наборе
- Замерить метрику. Записать «честное число»
Чек-лист окончания недели 2:
- MVP работает end-to-end
- Прогон на тестовом наборе сделан
- Метрика на тестовом наборе записана
Неделя 3: тестирование с пользователями
Понедельник:
- Подключить 3–5 реальных пользователей (бета-тестеров)
- Дать им MVP, попросить пользоваться в реальной работе
Вторник-четверг:
- Собирать feedback: что не работает, что неожиданно сработало
- Чинить баги, корректировать промпт
- Каждый день — короткий стенд-ап с пользователями
Пятница:
- Финальный прогон на тестовом наборе после доработок
- Сравнить с baseline
- Замерить пользовательские метрики: сколько раз «это полезно» vs «это бесполезно»
Чек-лист окончания недели 3:
- 3+ реальных пользователя пользовались минимум 5 дней
- Метрика на тестовом наборе vs baseline сравнена
- Качественный feedback собран
Неделя 4: измерение + go/no-go
Понедельник-вторник:
- Финализация метрики
- Расчёт economics: сколько времени сэкономлено × ставка пользователя × за месяц
- ROI-проекция на 12 месяцев
Среда-четверг:
- Подготовка отчёта go/no-go: метрики, economics, риски, что доделать
- Презентация заказчику
Пятница:
- Решение: go (расширяем до production) / no-go (закрываем) / iterate (ещё 2 недели на одну фичу)
Чек-лист окончания недели 4:
- Отчёт go/no-go готов
- Решение принято
- Если go — есть scope production (что добавить, сколько займёт, сколько стоит)
Какую метрику выбрать
Метрика — главный артефакт pilot. Без неё pilot бесполезен. Свойства хорошей метрики:
1. Числовая. «Стало лучше» — не метрика. ”% точных ответов” — метрика.
2. Измеримая до и после. «Удовлетворённость клиентов» сложно измерить за 4 недели. «Время обработки тикета в минутах» — легко.
3. Связана с бизнес-ценностью. «Точность модели на тестовом наборе» — техническая. «Минут оператора сэкономлено» — бизнес.
4. Одна. Если метрик три — решение go/no-go превратится в спор. Одна — кристальная ясность.
Примеры хороших метрик:
- «Среднее время обработки тикета в минутах» → цель: ≥30% сокращения
- ”% писем где первый AI-ответ был принят без правок” → цель: ≥40%
- «Кол-во счетов в час обработанных одним сотрудником» → цель: ×2 рост
- “Defection rate (% случаев когда оператор сказал ‘AI ответил плохо’)” → цель: ≤15%
Бюджет pilot
Реалистичный диапазон 300–700 тыс. ₽:
| Статья | Цена |
|---|---|
| Аналитик + scope-сессии (неделя 1) | 100–150 тыс. ₽ |
| Разработка MVP (недели 2–3) | 150–300 тыс. ₽ |
| Инфраструктура (LLM API или временный self-hosted) | 30–80 тыс. ₽ |
| Финализация + отчёт + презентация | 50–100 тыс. ₽ |
Self-hosted-железо для pilot — обычно лишнее. Делайте на API (OpenAI, Claude, GigaChat, YandexGPT). Self-hosted разворачивается на стадии production. Pilot не должен бороться с инфраструктурой.
Типичные грабли
1. Расползание scope
В неделю 2 заказчик говорит «а ещё хочется чтобы вот это умело». В неделю 3 — ещё одна «маленькая» фича. К концу недели 4 — три use-case, ни один не доделан, метрика размытая.
Защита: scope в одно предложение фиксируется в неделю 1, любые новые требования идут в “post-pilot backlog”. Без исключений.
2. Без baseline
Через 4 недели спрашиваем: «стало быстрее?» — «Да, кажется.» Сколько именно? «Не знаем, не мерили до.»
Это провал pilot. Без baseline вы не сможете доказать руководству что AI работает, и руководство будет право.
Защита: baseline измеряется в неделю 1. Если измерить нельзя — отменяйте pilot или меняйте задачу.
3. Тестирование на синтетике
LLM хорошо отвечает на 20 примеров которые подобрала команда AI-разработки. На реальных тикетах — другая история (язык хуже, опечатки, специфика).
Защита: тестовый набор берётся из реальной выборки. Лучше всего — случайные 100–200 примеров за прошлый месяц.
4. Только один человек тестирует
Тимлид внутренне пользуется — ему нравится. Ставим во весь отдел — половина не понимает как, вторая не использует.
Защита: в неделю 3 минимум 3 разных пользователя из разных ролей. Их feedback — основа решения go/no-go.
5. Метрика «точность на тестовом наборе» вместо бизнес-метрики
“AI правильно отвечает в 78% случаев”. А что это значит для бизнеса? Сколько часов экономии? Сколько денег?
Защита: добавляйте бизнес-перевод метрики. “78% точности → 60% тикетов AI закрывает без оператора → 600 часов в месяц экономии × 600 ₽ = 360 тыс. / месяц”.
6. Pilot за месяц = production за месяц
После успешного pilot заказчик ожидает что ещё месяц — и production. На самом деле production — это:
- Авторизация (SSO, ACL)
- Мониторинг и алертинг
- Логирование, audit-log
- Изоляция тенантов
- Резервное копирование
- HA и failover
- Документация и обучение
Это плюс 2–4 месяца минимум.
Защита: в отчёте pilot чётко прописывайте что входит в production-фазу и сколько займёт.
Decision-rules для go/no-go
После 4 недель решение принимается по 4 критериям:
| Критерий | go | iterate | no-go |
|---|---|---|---|
| Метрика достигла цели | Да | Близко (70–90%) | Сильно ниже |
| Пользователи готовы использовать | Да, 3+ говорят «полезно» | Смешанный feedback | Не используют |
| Economics обоснованы | ROI 12 мес >50% | ROI 12 мес 0–50% | ROI отрицательный |
| Технически масштабируется | Да | С оговорками | Нет, упёрлись в потолок |
3+ “go” — расширяем до production. 2+ “no-go” — закрываем. Смешано — iterate ещё 2 недели на одну конкретную проблему.
Когда pilot не нужен
- Задача проверена в индустрии тысячу раз (саппорт-RAG для команды 50 человек) — переходите сразу к production
- Бюджет позволяет потратить 2–4 млн без риска (но честно — pilot всё равно даст быстрее ясность)
- Use-case настолько сложный что 4 недель мало (например, регуляторно сложная медицина) — нужен другой формат, не pilot
Итог
4-недельный pilot — самый дешёвый и понятный способ проверить AI-проект в малом и среднем бизнесе. Главные принципы: один use-case, одна метрика, baseline до старта, реальные пользователи в неделю 3.
Если pilot прошёл — переходите в production-фазу с понятным scope. Если не прошёл — потеряли 4 недели и 500 тыс. ₽, а не год и 4 млн.
В AGmind pilot — стандартная первая стадия любого внедрения. На 30-минутном аудите мы определяем подходит ли ваша задача под pilot-формат, и если да — собираем scope в один документ.
Связанные тексты: топ-7 ошибок внедрения AI, как развернуть корпоративный ChatGPT за 6 недель, ROI от внедрения AI.