基于deepseek的文本解析 - 超长文本的md结构化

然而，不管是langchain还是llamaindex提供的文本分割工具，很难直接对非结构化文本进行准确的语义分割，很多原来连续的内容都被分割在不同块中。deepseek完成本次解析后，将deepseek解析生成的结构化md作为already_parsed输入，将下次待解析非结构化的若干页文档作为waiting_parsed输入。这里尝试基于deepseek，将pdf解析后的非结构化文本转化为结构

liliangcsdn

328人浏览 · 2025-07-31 23:04:16

liliangcsdn · 2025-07-31 23:04:16 发布

pdf超长合同或其他超100页非结构化文档，很难全量提交deepseek进行分析，一般需要先进行分割。然而，不管是langchain还是llamaindex提供的文本分割工具，很难直接对非结构化文本进行准确的内容分割，很多原始整体段落被划分在不同的分块中。

这里尝试基于deepseek，将pdf解析后的非结构化文本转化为结构化的md，以支持langchain或llamaindex进行更有效的向量化文档分块，避免原始整体段落被划分在不同的分块中。

1 解析prompt示例

以下是prompt实例，每次连续读若干页进行解析，确保prompt输入在deepseek max_tokens范围内。为了保持连续性，本次解析的内容和上次解析的内容保持一页重合。如此，对于连续多页待解析块的内容，其第一页已在上次完成解析，相关内容已经合并到md文档中。

already_parsed为之前已经完成解析的结构化md文档。

waiting_parsed为本次待解析的非结构化文本文档。

你是企业运营人员。
以下是已经解析归并后的合同md文件。

{already_parsed}

以下是合同连续多页内容，第一页已经被解析并合并到以上md文件中。
请仔细阅读以上内容，将没有被解析的内容合并到md文件中。
---

{waiting_parsed}

2 deepseek迭代解析

deepseek完成本次解析后，将deepseek解析生成的结构化md作为already_parsed输入，将下次待解析非结构化的若干页文档作为waiting_parsed输入。

如此重复多次，直到完成整个非结构化文档的解析。

最终输出的md文档即为结构化的md文档。

reference

---

deepseek r1 chat

https://chat.deepseek.com/

RAG向量化文档分块方式探索

https://blog.csdn.net/liliang199/article/details/149798215

技术共进，成长同行——讯飞AI开发者社区

技术共进，成长同行——讯飞AI开发者社区

更多推荐

cover

人工智能和数据科学就业市场：到底发生了什么？

讯飞AI开发者社区

cover

AI智能体第4期——深入了解人工智能智能体的不同类型：反应式、规划式等

讯飞AI开发者社区

cover

智慧暖通节能系统：AI 驱动的 “按需供能 + 精准控温” 低碳解决方案

讯飞AI开发者社区

所有评论(0)

查看更多评论

liliangcsdn

已为社区贡献4条内容