Все статьи
обновлено 7 мин

Pilot-проект AI за 4 недели: scope, метрики, типичные грабли

Как запустить pilot AI-внедрения за 4 недели и получить понятный go/no-go результат. Скоуп, метрики, бюджет, типичные провалы.

pilotai-внедрениеself-hosted-aiagmindметодика

Пилотный проект ИИ за 4 недели — это жёсткий формат: один бизнес-процесс, одна числовая метрика с зафиксированным baseline, реальные пользователи с третьей недели и go/no-go решение в пятницу четвёртой. Стоит 300–700 тыс. ₽ — в разы дешевле года блужданий. Это статья про методику: что работает в малом и среднем бизнесе.

Это статья — методика как проводить такой pilot. Не «теоретически идеальный roadmap», а что реально работает в малом и среднем бизнесе.

Зачем pilot

Альтернативы pilot:

A) Сразу production-проект. Минусы: 4–6 месяцев до понимания «работает ли вообще», 2–4 млн ₽ риска. Если задача оказалась не той — потеряли всё.

B) «Тестовый ChatGPT для команды». Минусы: нет метрики, нет ROI, через 3 месяца забыли. Маркетинговая активность.

C) Pilot с фокусом. Узкий scope, измеримая метрика, фиксированный срок. Если работает — расширяем. Если нет — закрываем без больших потерь.

Нормальная стоимость pilot — 300–700 тыс. ₽ за 4 недели. Если поставщик предлагает pilot за 50 тыс. — это не pilot, это демо. Если за 2 млн — это уже не pilot, а маленький production.

Главное правило: один use-case

Pilot не должен решать «несколько задач». Один use-case значит:

  • Одна целевая аудитория (один отдел / одна роль)
  • Один тип задачи (не “AI для саппорта И продаж”)
  • Одна точка интеграции (одна система: только CRM, или только база знаний)

Примеры хороших scope для pilot:

  • “AI отвечает на 100 типовых тикетов в саппорте за неделю и мы измеряем точность”
  • “AI извлекает реквизиты из 200 счетов и мы сравниваем с эталоном”
  • “AI готовит черновик ответа на письма коммерческого предложения, менеджер редактирует”

Примеры плохих scope:

  • “AI помогает всему отделу” — всем = никому
  • «Внедрить корпоративный ChatGPT» — это не задача, это инструмент
  • “AI для повышения productivity” — нет метрики

Структура 4 недель

Неделя 1: scope + данные

Понедельник-среда:

  • Зафиксировать use-case в одно предложение
  • Определить метрику успеха (одну, числовую)
  • Определить baseline (как было до)
  • Идентифицировать данные: какие документы / тикеты / записи нужны

Четверг-пятница:

  • Собрать тестовый набор: 100–200 примеров с эталонными ответами
  • Проверить юридические аспекты: можно ли эти данные использовать для AI-обработки

Чек-листы окончания недели 1:

  • Use-case в одном предложении
  • Метрика — одна, числовая, с целевым значением
  • Baseline измерен
  • Тестовый набор 100+ примеров готов
  • Согласие юристов / compliance на использование данных

Если хотя бы один пункт не закрыт — pilot стоп. Пока не закроете, дальше не идите.

Неделя 2: MVP

Понедельник-вторник:

  • Развернуть LLM-сервер (один из вариантов): SaaS API (быстрее), self-hosted (если требует compliance)
  • Подключить vector DB (если RAG) — Qdrant запускается за час
  • Загрузить корпус документов / интегрировать с системой

Среда-четверг:

  • Написать base промпт. Не идеальный — рабочий
  • Прогнать на 20 примерах из тестового набора, посмотреть выход
  • Итерации промпта: 5–10 раз минимум

Пятница:

  • Прогнать MVP на полном тестовом наборе
  • Замерить метрику. Записать «честное число»

Чек-лист окончания недели 2:

  • MVP работает end-to-end
  • Прогон на тестовом наборе сделан
  • Метрика на тестовом наборе записана

Неделя 3: тестирование с пользователями

Понедельник:

  • Подключить 3–5 реальных пользователей (бета-тестеров)
  • Дать им MVP, попросить пользоваться в реальной работе

Вторник-четверг:

  • Собирать feedback: что не работает, что неожиданно сработало
  • Чинить баги, корректировать промпт
  • Каждый день — короткий стенд-ап с пользователями

Пятница:

  • Финальный прогон на тестовом наборе после доработок
  • Сравнить с baseline
  • Замерить пользовательские метрики: сколько раз «это полезно» vs «это бесполезно»

Чек-лист окончания недели 3:

  • 3+ реальных пользователя пользовались минимум 5 дней
  • Метрика на тестовом наборе vs baseline сравнена
  • Качественный feedback собран

Неделя 4: измерение + go/no-go

Понедельник-вторник:

  • Финализация метрики
  • Расчёт economics: сколько времени сэкономлено × ставка пользователя × за месяц
  • ROI-проекция на 12 месяцев

Среда-четверг:

  • Подготовка отчёта go/no-go: метрики, economics, риски, что доделать
  • Презентация заказчику

Пятница:

  • Решение: go (расширяем до production) / no-go (закрываем) / iterate (ещё 2 недели на одну фичу)

Чек-лист окончания недели 4:

  • Отчёт go/no-go готов
  • Решение принято
  • Если go — есть scope production (что добавить, сколько займёт, сколько стоит)

Какую метрику выбрать

Метрика — главный артефакт pilot. Без неё pilot бесполезен. Свойства хорошей метрики:

1. Числовая. «Стало лучше» — не метрика. ”% точных ответов” — метрика.

2. Измеримая до и после. «Удовлетворённость клиентов» сложно измерить за 4 недели. «Время обработки тикета в минутах» — легко.

3. Связана с бизнес-ценностью. «Точность модели на тестовом наборе» — техническая. «Минут оператора сэкономлено» — бизнес.

4. Одна. Если метрик три — решение go/no-go превратится в спор. Одна — кристальная ясность.

Примеры хороших метрик:

  • «Среднее время обработки тикета в минутах» → цель: ≥30% сокращения
  • ”% писем где первый AI-ответ был принят без правок” → цель: ≥40%
  • «Кол-во счетов в час обработанных одним сотрудником» → цель: ×2 рост
  • “Defection rate (% случаев когда оператор сказал ‘AI ответил плохо’)” → цель: ≤15%

Бюджет pilot

Реалистичный диапазон 300–700 тыс. ₽:

СтатьяЦена
Аналитик + scope-сессии (неделя 1)100–150 тыс. ₽
Разработка MVP (недели 2–3)150–300 тыс. ₽
Инфраструктура (LLM API или временный self-hosted)30–80 тыс. ₽
Финализация + отчёт + презентация50–100 тыс. ₽

Self-hosted-железо для pilot — обычно лишнее. Делайте на API (OpenAI, Claude, GigaChat, YandexGPT). Self-hosted разворачивается на стадии production. Pilot не должен бороться с инфраструктурой.

Типичные грабли

1. Расползание scope

В неделю 2 заказчик говорит «а ещё хочется чтобы вот это умело». В неделю 3 — ещё одна «маленькая» фича. К концу недели 4 — три use-case, ни один не доделан, метрика размытая.

Защита: scope в одно предложение фиксируется в неделю 1, любые новые требования идут в “post-pilot backlog”. Без исключений.

2. Без baseline

Через 4 недели спрашиваем: «стало быстрее?» — «Да, кажется.» Сколько именно? «Не знаем, не мерили до.»

Это провал pilot. Без baseline вы не сможете доказать руководству что AI работает, и руководство будет право.

Защита: baseline измеряется в неделю 1. Если измерить нельзя — отменяйте pilot или меняйте задачу.

3. Тестирование на синтетике

LLM хорошо отвечает на 20 примеров которые подобрала команда AI-разработки. На реальных тикетах — другая история (язык хуже, опечатки, специфика).

Защита: тестовый набор берётся из реальной выборки. Лучше всего — случайные 100–200 примеров за прошлый месяц.

4. Только один человек тестирует

Тимлид внутренне пользуется — ему нравится. Ставим во весь отдел — половина не понимает как, вторая не использует.

Защита: в неделю 3 минимум 3 разных пользователя из разных ролей. Их feedback — основа решения go/no-go.

5. Метрика «точность на тестовом наборе» вместо бизнес-метрики

“AI правильно отвечает в 78% случаев”. А что это значит для бизнеса? Сколько часов экономии? Сколько денег?

Защита: добавляйте бизнес-перевод метрики. “78% точности → 60% тикетов AI закрывает без оператора → 600 часов в месяц экономии × 600 ₽ = 360 тыс. / месяц”.

6. Pilot за месяц = production за месяц

После успешного pilot заказчик ожидает что ещё месяц — и production. На самом деле production — это:

  • Авторизация (SSO, ACL)
  • Мониторинг и алертинг
  • Логирование, audit-log
  • Изоляция тенантов
  • Резервное копирование
  • HA и failover
  • Документация и обучение

Это плюс 2–4 месяца минимум.

Защита: в отчёте pilot чётко прописывайте что входит в production-фазу и сколько займёт.

Decision-rules для go/no-go

После 4 недель решение принимается по 4 критериям:

Критерийgoiterateno-go
Метрика достигла целиДаБлизко (70–90%)Сильно ниже
Пользователи готовы использоватьДа, 3+ говорят «полезно»Смешанный feedbackНе используют
Economics обоснованыROI 12 мес >50%ROI 12 мес 0–50%ROI отрицательный
Технически масштабируетсяДаС оговоркамиНет, упёрлись в потолок

3+ “go” — расширяем до production. 2+ “no-go” — закрываем. Смешано — iterate ещё 2 недели на одну конкретную проблему.

Когда pilot не нужен

  • Задача проверена в индустрии тысячу раз (саппорт-RAG для команды 50 человек) — переходите сразу к production
  • Бюджет позволяет потратить 2–4 млн без риска (но честно — pilot всё равно даст быстрее ясность)
  • Use-case настолько сложный что 4 недель мало (например, регуляторно сложная медицина) — нужен другой формат, не pilot

Итог

4-недельный pilot — самый дешёвый и понятный способ проверить AI-проект в малом и среднем бизнесе. Главные принципы: один use-case, одна метрика, baseline до старта, реальные пользователи в неделю 3.

Если pilot прошёл — переходите в production-фазу с понятным scope. Если не прошёл — потеряли 4 недели и 500 тыс. ₽, а не год и 4 млн.

В AGmind pilot — стандартная первая стадия любого внедрения. На 30-минутном аудите мы определяем подходит ли ваша задача под pilot-формат, и если да — собираем scope в один документ.

Связанные тексты: топ-7 ошибок внедрения AI, как развернуть корпоративный ChatGPT за 6 недель, ROI от внедрения AI.