Langchain text splitter

ChatGPT 1С. Практическая разработка ИИ менеджеров, ассистентов

КУРС ИИ + 1С

Курс по разработке ИИ проектов в связке с 1С на реальных проектах.

Изучение с самого нуля
Использование современных фреймворков
Локальные модели
Все исходники прилагаются
Оплата в рассрочку на 12 месяцев

Langchain text splitter: Методы разбиения текста на чанки

LangChain предлагает различные методы разбиения текста на части, что важно для работы с текстовыми данными. Эти методы полезны при подготовке данных для обучения моделей, обработке больших документов и интеграции с внешними источниками.

TokenTextSplitter

TokenTextSplitter разбивает текст на основе токенов. Например, можно задать размер чанка и перекрытие между чанками. Этот метод применяется для текстов, где важна структура токенов.

CharacterTextSplitter

Этот сплиттер разбивает текст по определённым разделителям, которые вы можете задать. Например, можно указать точку в качестве разделителя и перекрытие между чанками. Это позволяет сохранить смысл текста в каждом чанке.

RecursiveCharacterTextSplitter

RecursiveCharacterTextSplitter ограничивает размер чанков и разбивает текст по заданным разделителям. Это позволяет избежать превышения заданного размера и сохранить структуру текста.

MarkdownHeaderTextSplitter

MarkdownHeaderTextSplitter используется для разбиения текста с заголовками Markdown. Это позволяет создавать структурированные данные, что удобно для создания баз данных.

Заключение

Методы разбиения текста в LangChain помогают структурировать текстовые данные для дальнейшего использования в моделях. Правильный выбор метода разбиения зависит от задачи и типа данных, с которыми вы работаете.