RAG и поиск по знаниям

Статус: актуально для текущего интерфейса платформы

RAG помогает ассистенту отвечать не только на основе общей модели, но и на основе ваших документов. Перед генерацией ответа платформа ищет релевантные фрагменты в подключённых источниках и подаёт их в контекст модели.

Когда нужен RAG

Используйте RAG, если вам нужно:

отвечать по внутренним регламентам и инструкциям;
опираться на договоры, прайс-листы, письма и отчёты;
показывать пользователю, на какие документы ссылается ответ;
обновлять знания без изменения системного промпта;
ограничивать поиск только нужными базами знаний и файлами.

Если источники знаний не нужны, ассистент может работать и без RAG как обычный LLM-ассистент.

Из чего берутся источники

В актуальном интерфейсе источники для RAG настраиваются в ассистенте.

Ассистент может искать в:

базах знаний рабочего пространства;
файлах ассистента.

В режиме Внутри платформы эти настройки задаются прямо в карточке ассистента. В режиме Глобальный сценарий сами источники также выбираются в ассистенте, но тонкая логика поиска и использования результатов переносится в workflow-сценарий.

Подробнее: Ассистенты, Базы знаний

Как работает поиск

Типовой процесс выглядит так:

Пользователь задаёт вопрос в чате.
Платформа определяет, что для ассистента включены источники знаний.
Запрос проходит retrieval по выбранным базам знаний и файлам.
Самые релевантные фрагменты попадают в контекст модели.
Модель строит ответ с учётом найденного материала.
При включённой опции показа источников пользователь может открыть список использованных материалов.

Где настраивается поведение поиска

У ассистента есть два основных режима настройки retrieval:

использовать активный search profile рабочего пространства;
включить кастомный режим и задать параметры вручную только для этого ассистента.

Search profile

Этот вариант удобен, если:

в workspace уже согласованы стандартные параметры поиска;
нужно одинаковое поведение для нескольких ассистентов;
вы хотите централизованно управлять качеством и стоимостью поиска.

Кастомные параметры ассистента

Этот вариант нужен, если конкретному ассистенту требуется своя логика поиска.

Обычно настраивают:

стратегию retrieval;
лимит найденных фрагментов;
пороги релевантности;
переписывание запроса;
rerank;
историю диалога, которая попадает в контекст;
показ источников;
кеш контекста.

Стратегии retrieval

В актуальном интерфейсе доступны несколько стратегий объединения и отбора результатов.

`RRF`

Подходит как универсальный стартовый вариант, когда нужно сбалансировать разные сигналы поиска без тонкой ручной настройки.

`Weighted Thresholded`

Подходит, когда вы хотите жёстче контролировать пороги и веса. Обычно используется, если нужно сократить шум и оставить только достаточно уверенные совпадения.

`Union`

Подходит, когда важнее не потерять потенциально полезные результаты. После этого обычно дополнительно настраивают лимиты и пороги, чтобы ответ не стал слишком шумным.

Основные параметры, которые влияют на качество ответа

`Top K`

Определяет, сколько найденных фрагментов попадёт в контекст.

Больше значение:

увеличивает шанс захватить нужную информацию;
может ухудшить фокус ответа;
может увеличить стоимость и задержку.

Пороги релевантности

Помогают отсечь слабые совпадения. Если порог слишком высокий, нужный документ может не попасть в ответ. Если слишком низкий, ассистент начнёт подтягивать лишний контент.

`Query rewrite`

Помогает улучшить поисковый запрос до выполнения retrieval. Полезен для коротких, размытых или разговорных формулировок.

`LLM rerank`

Используется, когда после первичного retrieval нужно точнее отсортировать кандидатов и оставить наиболее полезные фрагменты.

История диалога

Можно ограничить:

число сообщений из истории;
объём текста из истории.

Это важно, если смысл текущего вопроса сильно зависит от предыдущих сообщений.

Кеш контекста

Полезен в длинных или повторяющихся диалогах, когда часть контекста используется многократно.

Как пользователь видит источники в чате

Если у ассистента включён показ источников:

у ответа появляется блок или кнопка Источники;
список источников открывается в правой панели;
пользователь может проверить, какие документы использовались при ответе.

Это особенно полезно для сценариев, где важна проверяемость: регламенты, юридические документы, техническая документация, ответы сотрудникам и клиентам.

Подробнее: Чаты и диалоги

RAG в workflow-сценариях

Если ассистент работает в режиме Глобальный сценарий, логика retrieval может быть частью workflow.

Это используют, когда нужно:

объединять поиск по знаниям с дополнительными шагами обработки;
выбирать разные ветки ответа в зависимости от найденного контекста;
показывать пользователю форму, согласование или документ после поиска;
объединять retrieval с внешними действиями и интеграциями.

В этом случае:

сами источники по-прежнему могут задаваться в ассистенте;
параметры и логика retrieval настраиваются уже в workflow-редакторе.

Когда стоит менять параметры

Оставляйте настройки по умолчанию, если:

ассистент только запускается;
набор источников пока небольшой;
качество ответа уже устраивает.

Настраивайте retrieval вручную, если:

ассистент не находит нужные документы;
в ответы попадает слишком много нерелевантного текста;
диалоги длинные и важен контекст истории;
ответы должны быть максимально проверяемыми и аккуратными.

Частые проблемы

Ассистент отвечает без опоры на документы

Проверьте:

подключены ли источники знаний в ассистенте;
завершилась ли обработка документов;
не работает ли ассистент в workflow-режиме без настроенного узла поиска;
сохранены ли изменения после выбора источников.

Источники не показываются

Обычно причина одна из двух:

показ источников выключен в настройках ассистента;
ответ был построен без использования retrieval, потому что подходящих фрагментов не нашлось.

Находится слишком много лишнего

Попробуйте:

уменьшить Top K;
поднять пороги релевантности;
включить или пересмотреть LLM rerank;
сузить набор источников до нужных баз знаний.

Нужный документ не попадает в ответ