Исследования / Поведение агента

Исследование · A/B тест · март–апрель 2026

Устойчивость поведения на длинных диалогах.

5 параметров. 30 ходов диалога. Базовая настройка vs архитектура поведения. Оценщик независимый.

01 · Вопрос

Насколько устойчиво ведёт себя агент через 30, 50, 100 сообщений?

Я начал исследовать это после того, как несколько раз столкнулся с одной и той же проблемой на реальных проектах: агент работает хорошо в начале разговора и начинает «выпадать» из роли в длинных диалогах.

Меняет тон, нарушает ограничения, противоречит себе.

02 · Метод тестирования

Контролируемый A/B с независимой оценкой.

Два агента с одинаковой задачей: клиентский сервис и B2B-продажи. Один с базовой настройкой, один с архитектурой поведения.

Длина диалога

30 сообщений

Параметров оценки

5: соблюдение роли, соблюдение ограничений, последовательность позиции, тон, обработка провокационных вопросов

Повторов на агента

5 тестов

Оценщик

Независимый

03 · Результаты

Пять параметров в деталях.

Параметр

Базовая настройка

С архитектурой поведения

Устойчивость роли (5 тестов)

0/5 — дрейф к 7–10 сообщению

5/5 — без отклонений

Нарушение ограничений

систематически (3–4 из 5)

0 из 5 тестов

Последовательность позиции

меняет к 15–20 сообщению

стабильна через 30

Тон

нестабилен

стабилен

Провокационные вопросы

выходит из роли в 80% случаев

0% выхода из роли

04 · Что это значит на практике

В реальных условиях разница видна сразу.

Нестабильное поведение

Что видит клиент

Получает противоречивые ответы в одном разговоре.
Агент даёт информацию, которую не должен (цены без подтверждения, обещания без полномочий).
Поддержка тратит время на разбор «что сказал агент».

С архитектурой поведения

Что получает бизнес

Агент ведёт себя одинаково на первом и пятидесятом сообщении.
Отказывается отвечать на вопросы вне зоны ответственности — чётко, без агрессии.
Поведение предсказуемо. Можно гарантировать клиенту.

05 · Применение

Где устойчивость критична.

Подходит

Где важно

Агент общается с клиентами напрямую (сервис, продажи, онбординг).
Нельзя допускать нарушение ограничений (конфиденциальность, compliance).
Используется в длинных сессиях (часовые консультации, многоэтапные продажи).

Не критично

Где можно без

Одноразовые запросы.
Технические агенты без «роли».
Batch-обработка данных.

06 · Продукт

AI Behavior Engineering

Архитектура поведения доступна для внедрения.

Реализована в продукте AI Behavior Engineering. Использую в собственных продуктах и у клиентов.

Подробнее о продукте → Обсудить внедрение →

Применить в вашем продукте?

Разберём задачу, оценим что подходит. Первый разговор бесплатный.

Обсудить → Память между сессиями