langchain.text_splitter：用RecursiveCharacterTextSplitter而不是CharacterTextSplitter，解决chunk过长的问题

诸神缄默不语

691人浏览 · 2025-03-03 14:28:13

诸神缄默不语 · 2025-03-03 14:28:13 发布

这是我在想尝试实践RAG功能的时候出现的问题。
我一开始用的代码类似这样：

from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
)

但是在使用chunks = text_splitter.split_documents(documents=documents)之后会出现类似这样的警告信息：

Created a chunk of size 593, which is longer than the specified 500

那我肯定会很好奇，为什么chunk的长度会超过我规定的数值呢？
在看源码的时候我们很容易发现CharacterTextSplitter有一个入参是separator: str = "\n\n"，很容易发现这个入参就是用来切分文档的分隔符。在分隔符之间的文本无论多长都不会被切开。
但是我们有时其实希望它通过多个分隔符来分割文本，大致逻辑是在这些分隔符之间也能分割文本，这个分隔符还有优先级，就是如果能用"\n\n"分的话就先不用。分。这个功能如果要手写的话可以参考苏神的代码，我整理在了这篇博文中，见第一节：中文分句的解决方案
如果要在langchain中直接实现现成的TextSplitter对象，则可以用RecursiveCharacterTextSplitter类来实现，代码类似这样：

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", "。", "."],
    chunk_size=500,
    chunk_overlap=50,
)

大致逻辑就是在separators里面按顺序一个一个进行切分，如果前面的separator切分后chunk还是过长，就用后面的separator切，所以separator的顺序应该是分章 - 分节 - 分段 - 分句 - 分词这种从大到小的。按照你所想要的粒度确定最小到多少。

当然另一种情况是你并不想按照标点符号进行切分，你就是纯纯想按字数进行切分，那建议用TokenTextSplitter类。

本文撰写过程中参考的网络资料：

Splitting/Chunking · langchain-ai/langchain · Discussion #3786
RecursiveCharacterTextSplitter和CharacterTextSplitter代码随读 - dmesg - 博客园：这一篇有介绍了一下源码实现算法，虽然我没仔细看但是我觉得我理解的是对的

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI行业与人工智能的关系与区别

讯飞AI开发者社区

[Methods 2024]Automatic ICD-10-CM coding via Lambda-Scaled attention based deep learning model

讯飞AI开发者社区

本地部署文生图AI工具：打造可持续使用的创作环境

随着人工智能技术的快速发展，文生图（Text-to-Image）AI工具已经成为内容创作者、设计师、自媒体从业者的重要助手。本文将介绍一种可持续、免费、安全的使用方式——将文生图AI模型部署在本地电脑中，并结合一个实用的AI工具箱进行多模态内容创作。在AI技术日益普及的今天，掌握本地部署与多模态AI工具的协同使用，将成为内容创作者的一项核心能力。通过将文生图AI大模型部署到本地电脑，并辅以功能丰富