RAG и поиск по знаниям

Статус: актуально для текущего интерфейса платформы

RAG помогает ассистенту отвечать не только на основе общей модели, но и на основе ваших документов. Перед генерацией ответа платформа ищет релевантные фрагменты в подключённых источниках и подаёт их в контекст модели.

Когда нужен RAG

Используйте RAG, если вам нужно:

  • отвечать по внутренним регламентам и инструкциям;
  • опираться на договоры, прайс-листы, письма и отчёты;
  • показывать пользователю, на какие документы ссылается ответ;
  • обновлять знания без изменения системного промпта;
  • ограничивать поиск только нужными базами знаний и файлами.

Если источники знаний не нужны, ассистент может работать и без RAG как обычный LLM-ассистент.

Из чего берутся источники

В актуальном интерфейсе источники для RAG настраиваются в ассистенте.

Ассистент может искать в:

  • базах знаний рабочего пространства;
  • файлах ассистента.

В режиме Внутри платформы эти настройки задаются прямо в карточке ассистента. В режиме Глобальный сценарий сами источники также выбираются в ассистенте, но тонкая логика поиска и использования результатов переносится в workflow-сценарий.

Подробнее: Ассистенты, Базы знаний

Как работает поиск

Типовой процесс выглядит так:

  1. Пользователь задаёт вопрос в чате.
  2. Платформа определяет, что для ассистента включены источники знаний.
  3. Запрос проходит retrieval по выбранным базам знаний и файлам.
  4. Самые релевантные фрагменты попадают в контекст модели.
  5. Модель строит ответ с учётом найденного материала.
  6. При включённой опции показа источников пользователь может открыть список использованных материалов.

Где настраивается поведение поиска

У ассистента есть два основных режима настройки retrieval:

  • использовать активный search profile рабочего пространства;
  • включить кастомный режим и задать параметры вручную только для этого ассистента.

Search profile

Этот вариант удобен, если:

  • в workspace уже согласованы стандартные параметры поиска;
  • нужно одинаковое поведение для нескольких ассистентов;
  • вы хотите централизованно управлять качеством и стоимостью поиска.

Кастомные параметры ассистента

Этот вариант нужен, если конкретному ассистенту требуется своя логика поиска.

Обычно настраивают:

  • стратегию retrieval;
  • лимит найденных фрагментов;
  • пороги релевантности;
  • переписывание запроса;
  • rerank;
  • историю диалога, которая попадает в контекст;
  • показ источников;
  • кеш контекста.

Стратегии retrieval

В актуальном интерфейсе доступны несколько стратегий объединения и отбора результатов.

RRF

Подходит как универсальный стартовый вариант, когда нужно сбалансировать разные сигналы поиска без тонкой ручной настройки.

Weighted Thresholded

Подходит, когда вы хотите жёстче контролировать пороги и веса. Обычно используется, если нужно сократить шум и оставить только достаточно уверенные совпадения.

Union

Подходит, когда важнее не потерять потенциально полезные результаты. После этого обычно дополнительно настраивают лимиты и пороги, чтобы ответ не стал слишком шумным.

Основные параметры, которые влияют на качество ответа

Top K

Определяет, сколько найденных фрагментов попадёт в контекст.

Больше значение:

  • увеличивает шанс захватить нужную информацию;
  • может ухудшить фокус ответа;
  • может увеличить стоимость и задержку.

Пороги релевантности

Помогают отсечь слабые совпадения. Если порог слишком высокий, нужный документ может не попасть в ответ. Если слишком низкий, ассистент начнёт подтягивать лишний контент.

Query rewrite

Помогает улучшить поисковый запрос до выполнения retrieval. Полезен для коротких, размытых или разговорных формулировок.

LLM rerank

Используется, когда после первичного retrieval нужно точнее отсортировать кандидатов и оставить наиболее полезные фрагменты.

История диалога

Можно ограничить:

  • число сообщений из истории;
  • объём текста из истории.

Это важно, если смысл текущего вопроса сильно зависит от предыдущих сообщений.

Кеш контекста

Полезен в длинных или повторяющихся диалогах, когда часть контекста используется многократно.

Как пользователь видит источники в чате

Если у ассистента включён показ источников:

  • у ответа появляется блок или кнопка Источники;
  • список источников открывается в правой панели;
  • пользователь может проверить, какие документы использовались при ответе.

Это особенно полезно для сценариев, где важна проверяемость: регламенты, юридические документы, техническая документация, ответы сотрудникам и клиентам.

Подробнее: Чаты и диалоги

RAG в workflow-сценариях

Если ассистент работает в режиме Глобальный сценарий, логика retrieval может быть частью workflow.

Это используют, когда нужно:

  • объединять поиск по знаниям с дополнительными шагами обработки;
  • выбирать разные ветки ответа в зависимости от найденного контекста;
  • показывать пользователю форму, согласование или документ после поиска;
  • объединять retrieval с внешними действиями и интеграциями.

В этом случае:

  • сами источники по-прежнему могут задаваться в ассистенте;
  • параметры и логика retrieval настраиваются уже в workflow-редакторе.

Когда стоит менять параметры

Оставляйте настройки по умолчанию, если:

  • ассистент только запускается;
  • набор источников пока небольшой;
  • качество ответа уже устраивает.

Настраивайте retrieval вручную, если:

  • ассистент не находит нужные документы;
  • в ответы попадает слишком много нерелевантного текста;
  • диалоги длинные и важен контекст истории;
  • ответы должны быть максимально проверяемыми и аккуратными.

Частые проблемы

Ассистент отвечает без опоры на документы

Проверьте:

  • подключены ли источники знаний в ассистенте;
  • завершилась ли обработка документов;
  • не работает ли ассистент в workflow-режиме без настроенного узла поиска;
  • сохранены ли изменения после выбора источников.

Источники не показываются

Обычно причина одна из двух:

  • показ источников выключен в настройках ассистента;
  • ответ был построен без использования retrieval, потому что подходящих фрагментов не нашлось.

Находится слишком много лишнего

Попробуйте:

  • уменьшить Top K;
  • поднять пороги релевантности;
  • включить или пересмотреть LLM rerank;
  • сузить набор источников до нужных баз знаний.

Нужный документ не попадает в ответ

Проверьте:

  • завершена ли индексация;
  • доступен ли документ текущему пользователю;
  • не слишком ли строгие пороги настроены;
  • не ограничен ли поиск неверным набором баз знаний или файлов.

Связанные разделы