Исследования / Память агента
Спецификация · Проверено на практике, 2026

Память AI-агента между сессиями.

Трёхслойная архитектура. Тест на 50 диалогах: 0 потерь контекста, 94% точность семантического поиска, скорость < 100 мс.

01 · Проблема

LLM не помнит ничего между сессиями.

Каждый новый разговор — с чистого листа. Это не баг — это архитектурное решение: модель работает в рамках одного контекстного окна и не хранит состояние между запросами.

Стандартные решения работают частично:

Системный промпт
Статичный, не адаптируется к контексту запроса. Агент получает 200 строк — использует 10.
Память о фактах
Помогает помнить «кто клиент», но не «что происходило в предыдущих разговорах».
Вся история в контексте
Дорого и неэффективно — модель плохо работает с большим нерелевантным контекстом.
02 · Архитектура трёх слоёв

Контекст между сессиями без потерь.

Я потратил несколько месяцев, чтобы решить эту задачу для своих агентов. Тест на 50 реальных диалогах. Результат — трёхслойная архитектура памяти.

Слой 1

Оперативная память

Текущий диалог. Стандартный контекст разговора. Всё, что нужно прямо сейчас.

Сбрасывается при закрытии сессии — это и есть исходная проблема
Слой 2

Эпизодическая память

История взаимодействий с конкретным клиентом. Хранится в структурированной базе: дата, суть обращения, итог разговора, принятые решения. При новом запросе система ищет релевантные эпизоды по смыслу вопроса — не по дате, а по семантическому сходству. В контекст попадают только нужные фрагменты.

Скорость поиска < 100 мс
Слой 3

Семантическая память

Факты о продукте, правила поведения, база знаний. Загружается не целиком, а точечно — только то, что релевантно конкретному вопросу. Агент не «читает инструкцию» каждый раз — он «вспоминает нужную часть».

Снижает стоимость запроса: 5–10 фрагментов вместо 200 строк контекста
03 · Ключевые инсайты

Что важно при проектировании.

A

Структура важнее объёма

Три предложения с чёткой структурой «дата + суть + итог» дают лучший поиск, чем большой неструктурированный текст. 94% точное попадание в топ-3.

B

Память нужно обновлять

Устаревшие факты (старая цена, изменённый продукт) остаются в базе и могут попасть в ответ. Регулярное обновление — обязательная часть обслуживания.

C

Период накопления

На первых 5–10 взаимодействиях семантический поиск возвращает мало релевантного. После 20+ — точность поиска растёт в 2 раза.

04 · Результаты тестирования

На реальных клиентских диалогах.

Метрика
Результат
Потеря контекста между сессиями
0 из 50 диалогов
Агент «вспомнил» клиента через неделю
47/50 корректных
Скорость загрузки релевантной памяти
< 100 мс

Без трёхслойной архитектуры: каждый разговор начинался заново, клиент вынужден был объяснять контекст снова.

05 · Применение

Где это работает.

Подходит

Где нужна память об истории

  • Память об истории клиента в продажах и поддержке.
  • Последовательность позиции агента в длинных переговорах.
  • Персонализация ответов на основе предыдущих взаимодействий.
Не подходит

Где история не нужна

  • Одноразовые запросы.
  • Публичные агенты без истории клиента.
  • Задачи, где каждая сессия независима.

Архитектура памяти под ваш продукт?

Разберу вашу задачу, оценю что подходит. Первый разговор бесплатный.