- Дата публикации
Как довести ИИ-агента до продакшена: дорожная карта на примере AI‑консультанта
Что появилось / что изменилось
Разработчик не ограничивается «чат-ботом на LLM», а собирает вокруг модели полноценную систему. В материале разбирают первую продакшен-версию AI‑консультанта для клиентов LLMStart с конкретным набором функций:
- ReAct‑агент поверх LLM: модель не только отвечает, но и планирует шаги, выбирает инструменты и по циклу Reason → Act → Observe двигается к результату.
- Короткая память (short‑term memory): хранение истории диалога и контекста, чтобы агент не «забывал» предыдущие сообщения.
- Набор инструментов, завязанных на CRM:
schedule_meeting— назначение встречи на конкретную дату и время;search_client_history— поиск истории взаимодействия клиента с LLMStart;create_request— создание новой заявки на консультацию, разработку или обучение;rag_search— поиск по базе знаний компании.
- RAG‑поиск по документам: в первой версии индексируются четыре PDF‑файла — портфолио с кейсами (25 страниц) и материалы по обучающим программам и тренингам.
Фокус смещается с «одной сильной модели» на архитектуру агента: как он принимает решения, куда ходит за данными, как общается с внутренними системами.
Как это работает
В центре схемы — LLM, к которой подключён ReAct‑паттерн. Модель получает запрос пользователя и делает два шага:
- Reason (подумать) — понять, достаточно ли текущего контекста, истории диалога и собственной параметрической памяти, чтобы сразу ответить.
- Act (действовать) — если нет, вызвать один из инструментов.
Инструменты работают как строго описанные функции:
schedule_meeting— принимает параметры даты, времени, участника и создаёт запись о встрече во внутреннем календаре или CRM.search_client_history— по идентификатору клиента возвращает историю заявок, консультаций, статусы.create_request— сохраняет в базе новую заявку: кто клиент, что ему нужно, комментарии.rag_search— реализация Retrieval Augmented Generation:- документы (PDF) заранее порезаны на чанки и закодированы в векторном представлении;
- при вызове инструмента агент формирует поисковый запрос из всей истории диалога и последнего сообщения;
- RAG‑слой ищет релевантные чанки и возвращает их в LLM;
- модель уже на основе этих фрагментов генерирует финальный ответ.
Архитектурно это выглядит так: бот на фронтенде, на бэкенде — ReAct‑агент с LLM, хранилище истории диалогов и обвязка для работы с CRM и векторной базой. Конкретный стек (LangChain, LlamaIndex, CrewAI и другие) не принципиален — важна граница между «разумом» агента и инструментами.
Что это значит для вас
Если вы уже попробовали подключить LLM к продукту, но всё уткнулось в нестабильность и «галлюцинации», здесь хороший ориентир, как превратить прототип в рабочий сервис.
Где это полезно:
- Служба поддержки и пресейл. Агент может брать на себя первичный контакт, базовые вопросы о компании, продуктах, ценах, сроках, а при необходимости создавать заявку или звать человека.
- Консалтинг и интеграторы. Можно быстро собрать AI‑консультанта поверх своей CRM и базы кейсов, не переписывая инфраструктуру.
- Образование и тренинги. Студент или корпоративный клиент общается с агентом, который знает программы обучения, форматы курсов и может предложить релевантный продукт.
Где подход не сработает в лоб:
- Там, где нет структурированных данных и документов. Без понятной CRM и подготовленной базы знаний RAG и инструменты будут малоэффективны.
- В сценариях с жёсткими регуляторными требованиями, где каждая фраза должна быть проверена человеком. Здесь агент может быть только ассистентом оператора, а не автономным консультантом.
Если вы техлид или предприниматель, ключевая мысль проста: ИИ‑агент — не «одна модель», а система. Нужно спроектировать инструменты, память, работу с базой знаний и только потом заниматься тонкой настройкой промптов.
Место на рынке
Подход, который описывает LLMStart, хорошо ложится на текущий ландшафт: LLM‑провайдеры дают мощные модели, а реальная ценность рождается в обвязке — в том, как вы подключаете модель к своим данным и процессам.
Здесь нет сравнения с конкретными продуктами вроде GPT‑4o или Claude 3 по скорости или цене. В фокусе — архитектурный паттерн ReAct и RAG как способ собрать production‑ready агента поверх любой выбранной LLM.
Если вы используете коммерческие API, сможете перенести этот дизайн почти без изменений. Если у вас своя он‑прем LLM, подход останется тем же: ReAct‑цикл, инструменты для CRM, RAG‑поиск по документам и чёткое разделение ролей между агентом и бэкендом.