Память AI-агента между сессиями — трёхслойная архитектура

01 · Проблема

LLM не помнит ничего между сессиями.

Каждый новый разговор — с чистого листа. Это не баг — это архитектурное решение: модель работает в рамках одного контекстного окна и не хранит состояние между запросами.

Стандартные решения работают частично:

Системный промпт

Статичный, не адаптируется к контексту запроса. Агент получает 200 строк — использует 10.

Память о фактах

Помогает помнить «кто клиент», но не «что происходило в предыдущих разговорах».

Вся история в контексте

Дорого и неэффективно — модель плохо работает с большим нерелевантным контекстом.

02 · Архитектура трёх слоёв

Контекст между сессиями без потерь.

Я потратил несколько месяцев, чтобы решить эту задачу для своих агентов. Тест на 50 реальных диалогах. Результат — трёхслойная архитектура памяти.

Слой 1

Оперативная память

Текущий диалог. Стандартный контекст разговора. Всё, что нужно прямо сейчас.

Сбрасывается при закрытии сессии — это и есть исходная проблема

Слой 2

Эпизодическая память

История взаимодействий с конкретным клиентом. Хранится в структурированной базе: дата, суть обращения, итог разговора, принятые решения. При новом запросе система ищет релевантные эпизоды по смыслу вопроса — не по дате, а по семантическому сходству. В контекст попадают только нужные фрагменты.

Скорость поиска < 100 мс

Слой 3

Семантическая память

Факты о продукте, правила поведения, база знаний. Загружается не целиком, а точечно — только то, что релевантно конкретному вопросу. Агент не «читает инструкцию» каждый раз — он «вспоминает нужную часть».

Снижает стоимость запроса: 5–10 фрагментов вместо 200 строк контекста

03 · Ключевые инсайты

Что важно при проектировании.

A

Структура важнее объёма

Три предложения с чёткой структурой «дата + суть + итог» дают лучший поиск, чем большой неструктурированный текст. 94% точное попадание в топ-3.

B

Память нужно обновлять

Устаревшие факты (старая цена, изменённый продукт) остаются в базе и могут попасть в ответ. Регулярное обновление — обязательная часть обслуживания.

C

Период накопления

На первых 5–10 взаимодействиях семантический поиск возвращает мало релевантного. После 20+ — точность поиска растёт в 2 раза.

04 · Результаты тестирования

На реальных клиентских диалогах.

Метрика

Результат

Потеря контекста между сессиями

0 из 50 диалогов

Агент «вспомнил» клиента через неделю

47/50 корректных

Скорость загрузки релевантной памяти

< 100 мс

Без трёхслойной архитектуры: каждый разговор начинался заново, клиент вынужден был объяснять контекст снова.

05 · Применение

Где это работает.

Подходит

Где нужна память об истории

Память об истории клиента в продажах и поддержке.
Последовательность позиции агента в длинных переговорах.
Персонализация ответов на основе предыдущих взаимодействий.

Не подходит

Где история не нужна

Одноразовые запросы.
Публичные агенты без истории клиента.
Задачи, где каждая сессия независима.

Память AI-агента между сессиями.