Embedding Провайдеры

Версия: 1.59

Embedding провайдер - это сервис, предоставляющий модели для векторизации текста. Используется для индексации документов и векторизации запросов в RAG.

Содержание


Что такое embedding провайдер

Embedding провайдер - это сервис, который:

  • Векторизует текст - преобразует текст в числовой вектор (embedding)
  • Используется для индексации - векторизует документы при индексации
  • Используется в RAG - векторизует запросы пользователей для поиска
  • Обеспечивает семантический поиск - позволяет находить документы по смыслу

Зачем нужны провайдеры

  • Разные модели - разные провайдеры предоставляют разные модели векторизации
  • Качество поиска - качество embedding влияет на точность поиска
  • Производительность - разные модели имеют разную скорость и стоимость
  • Гибкость - можно выбрать подходящую модель для задачи

Настройка провайдера (для администраторов)

Требования: Для настройки провайдеров нужна роль администратора.

Создание провайдера

  1. Перейдите в АдминистрированиеEmbedding Провайдеры
  2. Нажмите кнопку "Создать провайдер" или "+"
  3. Заполните информацию:
    • Тип провайдера - GigaChat, Custom
    • Название - название провайдера
    • Описание - краткое описание
  4. Настройте подключение:
    • Token URL - URL для получения токена (для OAuth)
    • Embeddings URL - URL для отправки запросов на векторизацию
    • Authorization Key - ключ авторизации
    • Scope - область доступа (для OAuth)
  5. Настройте модель:
    • Модель - название модели для векторизации
    • Max Tokens Per Vectorization - максимальное количество токенов за один запрос
  6. Настройте дополнительные параметры:
    • Request Headers - дополнительные заголовки (JSON)
    • Разрешить самоподписанные сертификаты - для тестовых серверов
  7. Настройте флаги:
    • Активен - провайдер доступен для использования
    • Глобальный - провайдер доступен для всех workspace
  8. Нажмите "Создать"

Редактирование провайдера

  1. Найдите провайдер в списке
  2. Нажмите кнопку "Редактировать" (иконка карандаша)
  3. Внесите необходимые изменения
  4. Нажмите "Сохранить"

Тестирование провайдера

  1. Найдите провайдер в списке
  2. Нажмите кнопку "Тестировать" или "Проверить подключение"
  3. Система проверит:
    • Получение access token (для OAuth)
    • Запрос векторизации тестового текста
    • Обработку ответа
  4. Результаты тестирования отобразятся с деталями каждого шага

Активация/деактивация провайдера

  1. Найдите провайдер в списке
  2. Переключите флаг "Активен"
  3. Изменения сохраняются автоматически

Важно: Деактивированный провайдер не будет использоваться для индексации и поиска.


Использование в индексации документов

Embedding провайдер используется для векторизации документов при индексации.

Процесс индексации

  1. Извлечение текста - текст извлекается из документа
  2. Чанкинг - документ разбивается на фрагменты (чанки)
  3. Векторизация - каждый чанк векторизуется с помощью embedding провайдера
  4. Сохранение - векторы сохраняются в Qdrant

Выбор провайдера

Провайдер выбирается автоматически:

  1. Провайдер workspace - если настроен для рабочего пространства
  2. Глобальный провайдер - если не настроен провайдер workspace

Настройка провайдера для workspace

  1. Перейдите в АдминистрированиеEmbedding Провайдеры
  2. Создайте или выберите провайдер
  3. Убедитесь, что провайдер привязан к нужному workspace
  4. Активируйте провайдер

Важно: Провайдер должен быть активен для использования в индексации.


Использование в RAG поиске

Embedding провайдер используется для векторизации запросов пользователей в RAG.

Процесс поиска

  1. Запрос пользователя - пользователь отправляет запрос
  2. Векторизация запроса - запрос векторизуется с помощью embedding провайдера
  3. Поиск в Qdrant - вектор запроса сравнивается с векторами документов
  4. Ранжирование - результаты ранжируются по релевантности

Выбор провайдера

Провайдер выбирается в следующем порядке:

  1. Провайдер ассистента - если указан в настройках ассистента (RAG настройки)
  2. Провайдер workspace - если не указан провайдер ассистента
  3. Глобальный провайдер - если не настроен провайдер workspace

Настройка провайдера в ассистенте

  1. Откройте настройки ассистента
  2. Найдите раздел "RAG настройки"
  3. В поле "Embedding Провайдер" выберите провайдера из списка
  4. Сохраните изменения

Важно: Провайдер должен быть активен и доступен в рабочем пространстве.


Использование в файлах ассистента

Embedding провайдер используется для векторизации файлов ассистента в LLM режиме.

Процесс обработки

  1. Загрузка файла - файл загружается в ассистент
  2. Извлечение текста - текст извлекается из файла
  3. Чанкинг - документ разбивается на фрагменты
  4. Векторизация - каждый чанк векторизуется с помощью embedding провайдера
  5. Сохранение - векторы сохраняются в Qdrant

Выбор провайдера

Провайдер выбирается автоматически:

  1. Провайдер workspace - если настроен для рабочего пространства
  2. Глобальный провайдер - если не настроен провайдер workspace

Важно: Провайдер должен быть активен для использования в индексации файлов.


Частые проблемы

Провайдер не работает

Проблема: Провайдер настроен, но не отвечает на запросы.

Возможные причины:

  • Провайдер неактивен
  • Неправильные URL или ключи
  • Проблемы с сетью
  • Провайдер недоступен

Решение:

  • Проверьте, что провайдер активен
  • Проверьте правильность URL и ключей
  • Используйте функцию "Тестировать" для проверки подключения
  • Проверьте подключение к интернету
  • Проверьте статус провайдера на его стороне

Индексация не работает

Проблема: Документы не индексируются.

Возможные причины:

  • Нет активного embedding провайдера
  • Провайдер не доступен в рабочем пространстве
  • Проблемы с провайдером

Решение:

  • Убедитесь, что есть активный embedding провайдер
  • Проверьте, что провайдер доступен в вашем workspace
  • Проверьте статус провайдера
  • Попробуйте запустить индексацию вручную

Поиск не находит документы

Проблема: RAG поиск не находит релевантные документы.

Возможные причины:

  • Документы не проиндексированы
  • Используется другой embedding провайдер для поиска, чем для индексации
  • Проблемы с качеством векторизации

Решение:

  • Убедитесь, что документы проиндексированы
  • Используйте тот же embedding провайдер для индексации и поиска
  • Проверьте качество векторизации (можно протестировать провайдер)

Медленная векторизация

Проблема: Векторизация работает медленно.

Возможные причины:

  • Перегрузка провайдера
  • Проблемы с сетью
  • Большой объём текста
  • Неоптимальные настройки

Решение:

  • Подождите немного (провайдер может быть перегружен)
  • Проверьте подключение к интернету
  • Уменьшите размер чанков
  • Проверьте настройки Max Tokens Per Vectorization

Ошибки авторизации

Проблема: Появляются ошибки авторизации при использовании провайдера.

Возможные причины:

  • Неправильный Authorization Key
  • Истёкший токен (для OAuth)
  • Неправильный Scope (для OAuth)

Решение:

  • Проверьте правильность Authorization Key
  • Для OAuth провайдеров проверьте настройки Token URL и Scope
  • Обновите ключи при необходимости
  • Используйте функцию "Тестировать" для диагностики

Связанные разделы


Примечания

  • Версия: 1.59
  • Настройка: Только для администраторов
  • Использование: Автоматически для индексации и поиска
  • Безопасность: Ключи авторизации хранятся в зашифрованном виде
  • Важно: Используйте тот же провайдер для индексации и поиска для оптимальных результатов