Pilot-проект AI за 4 недели: scope, метрики, типичные грабли

Пилотный проект ИИ за 4 недели — это жёсткий формат: один бизнес-процесс, одна числовая метрика с зафиксированным baseline, реальные пользователи с третьей недели и go/no-go решение в пятницу четвёртой. Стоит 300–700 тыс. ₽ — в разы дешевле года блужданий. Это статья про методику: что работает в малом и среднем бизнесе.

Это статья — методика как проводить такой pilot. Не «теоретически идеальный roadmap», а что реально работает в малом и среднем бизнесе.

Зачем pilot

Альтернативы pilot:

A) Сразу production-проект. Минусы: 4–6 месяцев до понимания «работает ли вообще», 2–4 млн ₽ риска. Если задача оказалась не той — потеряли всё.

B) «Тестовый ChatGPT для команды». Минусы: нет метрики, нет ROI, через 3 месяца забыли. Маркетинговая активность.

C) Pilot с фокусом. Узкий scope, измеримая метрика, фиксированный срок. Если работает — расширяем. Если нет — закрываем без больших потерь.

Нормальная стоимость pilot — 300–700 тыс. ₽ за 4 недели. Если поставщик предлагает pilot за 50 тыс. — это не pilot, это демо. Если за 2 млн — это уже не pilot, а маленький production.

Главное правило: один use-case

Pilot не должен решать «несколько задач». Один use-case значит:

Одна целевая аудитория (один отдел / одна роль)
Один тип задачи (не “AI для саппорта И продаж”)
Одна точка интеграции (одна система: только CRM, или только база знаний)

Примеры хороших scope для pilot:

“AI отвечает на 100 типовых тикетов в саппорте за неделю и мы измеряем точность”
“AI извлекает реквизиты из 200 счетов и мы сравниваем с эталоном”
“AI готовит черновик ответа на письма коммерческого предложения, менеджер редактирует”

Примеры плохих scope:

“AI помогает всему отделу” — всем = никому
«Внедрить корпоративный ChatGPT» — это не задача, это инструмент
“AI для повышения productivity” — нет метрики

Структура 4 недель

Неделя 1: scope + данные

Понедельник-среда:

Зафиксировать use-case в одно предложение
Определить метрику успеха (одну, числовую)
Определить baseline (как было до)
Идентифицировать данные: какие документы / тикеты / записи нужны

Четверг-пятница:

Собрать тестовый набор: 100–200 примеров с эталонными ответами
Проверить юридические аспекты: можно ли эти данные использовать для AI-обработки

Чек-листы окончания недели 1:

Use-case в одном предложении
Метрика — одна, числовая, с целевым значением
Baseline измерен
Тестовый набор 100+ примеров готов
Согласие юристов / compliance на использование данных

Если хотя бы один пункт не закрыт — pilot стоп. Пока не закроете, дальше не идите.

Неделя 2: MVP

Понедельник-вторник:

Развернуть LLM-сервер (один из вариантов): SaaS API (быстрее), self-hosted (если требует compliance)
Подключить vector DB (если RAG) — Qdrant запускается за час
Загрузить корпус документов / интегрировать с системой

Среда-четверг:

Написать base промпт. Не идеальный — рабочий
Прогнать на 20 примерах из тестового набора, посмотреть выход
Итерации промпта: 5–10 раз минимум

Пятница:

Прогнать MVP на полном тестовом наборе
Замерить метрику. Записать «честное число»

Чек-лист окончания недели 2:

MVP работает end-to-end
Прогон на тестовом наборе сделан
Метрика на тестовом наборе записана

Неделя 3: тестирование с пользователями

Понедельник:

Подключить 3–5 реальных пользователей (бета-тестеров)
Дать им MVP, попросить пользоваться в реальной работе

Вторник-четверг:

Собирать feedback: что не работает, что неожиданно сработало
Чинить баги, корректировать промпт
Каждый день — короткий стенд-ап с пользователями

Пятница:

Финальный прогон на тестовом наборе после доработок
Сравнить с baseline
Замерить пользовательские метрики: сколько раз «это полезно» vs «это бесполезно»

Чек-лист окончания недели 3:

3+ реальных пользователя пользовались минимум 5 дней
Метрика на тестовом наборе vs baseline сравнена
Качественный feedback собран

Неделя 4: измерение + go/no-go

Понедельник-вторник:

Финализация метрики
Расчёт economics: сколько времени сэкономлено × ставка пользователя × за месяц
ROI-проекция на 12 месяцев

Среда-четверг:

Подготовка отчёта go/no-go: метрики, economics, риски, что доделать
Презентация заказчику

Пятница:

Решение: go (расширяем до production) / no-go (закрываем) / iterate (ещё 2 недели на одну фичу)

Чек-лист окончания недели 4:

Отчёт go/no-go готов
Решение принято
Если go — есть scope production (что добавить, сколько займёт, сколько стоит)

Какую метрику выбрать

Метрика — главный артефакт pilot. Без неё pilot бесполезен. Свойства хорошей метрики:

1. Числовая. «Стало лучше» — не метрика. ”% точных ответов” — метрика.

2. Измеримая до и после. «Удовлетворённость клиентов» сложно измерить за 4 недели. «Время обработки тикета в минутах» — легко.

3. Связана с бизнес-ценностью. «Точность модели на тестовом наборе» — техническая. «Минут оператора сэкономлено» — бизнес.

4. Одна. Если метрик три — решение go/no-go превратится в спор. Одна — кристальная ясность.

Примеры хороших метрик:

«Среднее время обработки тикета в минутах» → цель: ≥30% сокращения
”% писем где первый AI-ответ был принят без правок” → цель: ≥40%
«Кол-во счетов в час обработанных одним сотрудником» → цель: ×2 рост
“Defection rate (% случаев когда оператор сказал ‘AI ответил плохо’)” → цель: ≤15%

Бюджет pilot

Реалистичный диапазон 300–700 тыс. ₽:

Статья	Цена
Аналитик + scope-сессии (неделя 1)	100–150 тыс. ₽
Разработка MVP (недели 2–3)	150–300 тыс. ₽
Инфраструктура (LLM API или временный self-hosted)	30–80 тыс. ₽
Финализация + отчёт + презентация	50–100 тыс. ₽

Self-hosted-железо для pilot — обычно лишнее. Делайте на API (OpenAI, Claude, GigaChat, YandexGPT). Self-hosted разворачивается на стадии production. Pilot не должен бороться с инфраструктурой.

Типичные грабли

1. Расползание scope

В неделю 2 заказчик говорит «а ещё хочется чтобы вот это умело». В неделю 3 — ещё одна «маленькая» фича. К концу недели 4 — три use-case, ни один не доделан, метрика размытая.

Защита: scope в одно предложение фиксируется в неделю 1, любые новые требования идут в “post-pilot backlog”. Без исключений.

2. Без baseline

Через 4 недели спрашиваем: «стало быстрее?» — «Да, кажется.» Сколько именно? «Не знаем, не мерили до.»

Это провал pilot. Без baseline вы не сможете доказать руководству что AI работает, и руководство будет право.

Защита: baseline измеряется в неделю 1. Если измерить нельзя — отменяйте pilot или меняйте задачу.

3. Тестирование на синтетике

LLM хорошо отвечает на 20 примеров которые подобрала команда AI-разработки. На реальных тикетах — другая история (язык хуже, опечатки, специфика).

Защита: тестовый набор берётся из реальной выборки. Лучше всего — случайные 100–200 примеров за прошлый месяц.

4. Только один человек тестирует

Тимлид внутренне пользуется — ему нравится. Ставим во весь отдел — половина не понимает как, вторая не использует.

Защита: в неделю 3 минимум 3 разных пользователя из разных ролей. Их feedback — основа решения go/no-go.

5. Метрика «точность на тестовом наборе» вместо бизнес-метрики

“AI правильно отвечает в 78% случаев”. А что это значит для бизнеса? Сколько часов экономии? Сколько денег?

Защита: добавляйте бизнес-перевод метрики. “78% точности → 60% тикетов AI закрывает без оператора → 600 часов в месяц экономии × 600 ₽ = 360 тыс. / месяц”.

6. Pilot за месяц = production за месяц

После успешного pilot заказчик ожидает что ещё месяц — и production. На самом деле production — это:

Авторизация (SSO, ACL)
Мониторинг и алертинг
Логирование, audit-log
Изоляция тенантов
Резервное копирование
HA и failover
Документация и обучение

Это плюс 2–4 месяца минимум.

Защита: в отчёте pilot чётко прописывайте что входит в production-фазу и сколько займёт.

Decision-rules для go/no-go

После 4 недель решение принимается по 4 критериям:

Критерий	go	iterate	no-go
Метрика достигла цели	Да	Близко (70–90%)	Сильно ниже
Пользователи готовы использовать	Да, 3+ говорят «полезно»	Смешанный feedback	Не используют
Economics обоснованы	ROI 12 мес >50%	ROI 12 мес 0–50%	ROI отрицательный
Технически масштабируется	Да	С оговорками	Нет, упёрлись в потолок

3+ “go” — расширяем до production. 2+ “no-go” — закрываем. Смешано — iterate ещё 2 недели на одну конкретную проблему.

Когда pilot не нужен

Задача проверена в индустрии тысячу раз (саппорт-RAG для команды 50 человек) — переходите сразу к production
Бюджет позволяет потратить 2–4 млн без риска (но честно — pilot всё равно даст быстрее ясность)
Use-case настолько сложный что 4 недель мало (например, регуляторно сложная медицина) — нужен другой формат, не pilot

Итог

4-недельный pilot — самый дешёвый и понятный способ проверить AI-проект в малом и среднем бизнесе. Главные принципы: один use-case, одна метрика, baseline до старта, реальные пользователи в неделю 3.

Если pilot прошёл — переходите в production-фазу с понятным scope. Если не прошёл — потеряли 4 недели и 500 тыс. ₽, а не год и 4 млн.

В AGmind pilot — стандартная первая стадия любого внедрения. На 30-минутном аудите мы определяем подходит ли ваша задача под pilot-формат, и если да — собираем scope в один документ.

Связанные тексты: топ-7 ошибок внедрения AI, как развернуть корпоративный ChatGPT за 6 недель, ROI от внедрения AI.