pdf超长合同或其他超100页非结构化文档,很难全量提交deepseek进行分析,一般需要先进行分割。然而,不管是langchain还是llamaindex提供的文本分割工具,很难直接对非结构化文本进行准确的内容分割,很多原始整体段落被划分在不同的分块中。

这里尝试基于deepseek,将pdf解析后的非结构化文本转化为结构化的md,以支持langchain或llamaindex进行更有效的向量化文档分块,避免原始整体段落被划分在不同的分块中。

1 解析prompt示例

以下是prompt实例,每次连续读若干页进行解析,确保prompt输入在deepseek max_tokens范围内。为了保持连续性,本次解析的内容和上次解析的内容保持一页重合。如此,对于连续多页待解析块的内容,其第一页已在上次完成解析,相关内容已经合并到md文档中。

already_parsed为之前已经完成解析的结构化md文档。

waiting_parsed为本次待解析的非结构化文本文档。

你是企业运营人员。
以下是已经解析归并后的合同md文件。

{already_parsed}

以下是合同连续多页内容,第一页已经被解析并合并到以上md文件中。
请仔细阅读以上内容,将没有被解析的内容合并到md文件中。
---

{waiting_parsed}

2 deepseek迭代解析

deepseek完成本次解析后,将deepseek解析生成的结构化md作为already_parsed输入,将下次待解析非结构化的若干页文档作为waiting_parsed输入。

如此重复多次,直到完成整个非结构化文档的解析。

最终输出的md文档即为结构化的md文档。

reference

---

deepseek r1 chat

https://chat.deepseek.com/

RAG向量化文档分块方式探索

https://blog.csdn.net/liliang199/article/details/149798215

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐