ChatGPT 1С. Практическая разработка ИИ менеджеров, ассистентов
КУРС ИИ + 1С

Курс по разработке ИИ проектов в связке с 1С на реальных проектах.

  1. Изучение с самого нуля
  2. Использование современных фреймворков
  3. Локальные модели
  4. Все исходники прилагаются
  5. Оплата в рассрочку на 12 месяцев
Опубликовано: 5 марта 2025 г.

LangChain: Методы разбиения текста на чанки

LangChain предлагает различные методы разбиения текста на части, что важно для работы с текстовыми данными. Эти методы полезны при подготовке данных для обучения моделей, обработке больших документов и интеграции с внешними источниками.

Популярные методы разбиения

В данном материале мы рассмотрим несколько методов разбиения текста, входящих в библиотеку LangChain.

TokenTextSplitter

TokenTextSplitter разбивает текст на основе токенов. Например, можно задать размер чанка и перекрытие между чанками. Этот метод применяется для текстов, где важна структура токенов.

CharacterTextSplitter

Этот сплиттер разбивает текст по определённым разделителям, которые вы можете задать. Например, можно указать точку в качестве разделителя и перекрытие между чанками. Это позволяет сохранить смысл текста в каждом чанке.

RecursiveCharacterTextSplitter

RecursiveCharacterTextSplitter ограничивает размер чанков и разбивает текст по заданным разделителям. Это позволяет избежать превышения заданного размера и сохранить структуру текста.

MarkdownHeaderTextSplitter

MarkdownHeaderTextSplitter используется для разбиения текста с заголовками Markdown. Это позволяет создавать структурированные данные, что удобно для создания баз данных.

Заключение

Методы разбиения текста в LangChain помогают структурировать текстовые данные для дальнейшего использования в моделях. Правильный выбор метода разбиения зависит от задачи и типа данных, с которыми вы работаете.

Посмотрите подробное видео:

Video thumbnail