Исследования / Поведение агента
Исследование · A/B тест · март–апрель 2026

Устойчивость поведения на длинных диалогах.

5 параметров. 30 ходов диалога. Базовая настройка vs архитектура поведения. Оценщик независимый.

01 · Вопрос

Насколько устойчиво ведёт себя агент через 30, 50, 100 сообщений?

Я начал исследовать это после того, как несколько раз столкнулся с одной и той же проблемой на реальных проектах: агент работает хорошо в начале разговора и начинает «выпадать» из роли в длинных диалогах.

Меняет тон, нарушает ограничения, противоречит себе.

02 · Метод тестирования

Контролируемый A/B с независимой оценкой.

Два агента с одинаковой задачей: клиентский сервис и B2B-продажи. Один с базовой настройкой, один с архитектурой поведения.
Длина диалога
30 сообщений
Параметров оценки
5: соблюдение роли, соблюдение ограничений, последовательность позиции, тон, обработка провокационных вопросов
Повторов на агента
5 тестов
Оценщик
Независимый
03 · Результаты
0/5 → 5/5
Drift cure за 30 ходов диалога. Базовая настройка vs архитектура поведения.

Пять параметров в деталях.

Параметр
Базовая настройка
С архитектурой поведения
Устойчивость роли (5 тестов)
0/5 — дрейф к 7–10 сообщению
5/5 — без отклонений
Нарушение ограничений
систематически (3–4 из 5)
0 из 5 тестов
Последовательность позиции
меняет к 15–20 сообщению
стабильна через 30
Тон
нестабилен
стабилен
Провокационные вопросы
выходит из роли в 80% случаев
0% выхода из роли
04 · Что это значит на практике

В реальных условиях разница видна сразу.

Нестабильное поведение

Что видит клиент

  • Получает противоречивые ответы в одном разговоре.
  • Агент даёт информацию, которую не должен (цены без подтверждения, обещания без полномочий).
  • Поддержка тратит время на разбор «что сказал агент».
С архитектурой поведения

Что получает бизнес

  • Агент ведёт себя одинаково на первом и пятидесятом сообщении.
  • Отказывается отвечать на вопросы вне зоны ответственности — чётко, без агрессии.
  • Поведение предсказуемо. Можно гарантировать клиенту.
05 · Применение

Где устойчивость критична.

Подходит

Где важно

  • Агент общается с клиентами напрямую (сервис, продажи, онбординг).
  • Нельзя допускать нарушение ограничений (конфиденциальность, compliance).
  • Используется в длинных сессиях (часовые консультации, многоэтапные продажи).
Не критично

Где можно без

  • Одноразовые запросы.
  • Технические агенты без «роли».
  • Batch-обработка данных.
06 · Продукт
AI Behavior Engineering

Архитектура поведения доступна для внедрения.

Реализована в продукте AI Behavior Engineering. Использую в собственных продуктах и у клиентов.

Применить в вашем продукте?

Разберём задачу, оценим что подходит. Первый разговор бесплатный.