【超长上下文检索评测】Qwen-Agent 智能体 vs 传统RAG vs 大上下文模型，谁更强？

阿里在Qwen-Agent项目中，针对大模型处理超长文本的挑战，提出了层级智能体方案，并在两个长文本基准测试中进行了评估。测试集包括NeedleBench和LV-Eval，分别测试模型在大量信息中定位关键信息及综合多证据的能力。实验对比了三种策略：32k-模型、4k-RAG和4k-智能体。结果显示，在短文本中32k模型表现较好，但在长文本和多跳问题中，4k-RAG和4k-智能体表现更优，尤其是4k

SHIPKING393

1417人浏览 · 2025-05-21 15:32:34

SHIPKING393 · 2025-05-21 15:32:34 发布

一、评测环境介绍：两个超长文本测试集

✅ 1. NeedleBench（大海捞针测试）

✅ 2. LV-Eval（多证据理解测试）

二、对比方法：三种模型策略

三、实验结果：长文本时代谁才是真正的解题王？

六、博主点评：智能体 vs 大模型，思维能力更重要

七、延伸阅读推荐

随着大模型逐渐向「百万 Token 上下文」迈进，如何高效从超长文本中提取关键信息成为了一个关键挑战。

阿里在 Qwen-Agent 项目中，不仅提出了层级智能体方案来应对超长文档理解问题，还在两个极具挑战的长文本基准测试中对其性能进行了全面评估。本文将围绕这些评测结果，为你揭示：

大模型面对长文本，RAG 策略是否真的有效？
简单扩长上下文窗口是否能提升理解力？
多智能体机制到底带来了哪些实际效果？

一、评测环境介绍：两个超长文本测试集

阿里的团队在两个专门为256K 超长上下文设计的测试集上进行了系统实验：

✅ 1. NeedleBench（大海捞针测试）

测试模型是否能在大量无关信息中找到关键信息句子（“多根针”）。
同时需要多跳推理能力，非简单匹配即可得分。

✅ 2. LV-Eval（多证据理解测试）

聚焦模型是否能综合多个分散的证据块来得出正确答案。
官方评分标准过于严格，阿里团队进行了合理放宽以更真实反映性能。

二、对比方法：三种模型策略

为了系统对比长文本理解能力，团队设计了三组实验对象：

方法名称	说明	模型输入长度	架构策略
32k-模型	7B模型，在8K上下文训练，少量32K数据增强	最多32K token	直接长上下文送入，无RAG
4k-RAG	同样模型，使用关键词检索策略（Lv1）	每次4K token	关键词检索 + 拼接
4k-智能体	使用Lv3智能体策略，逐块处理、推理整合	每次4K token	多工具组合、分步思维链

三、实验结果：长文本时代谁才是真正的解题王？

🌟 1. 短文本：32k 模型表现稍优

在上下文长度较短（如 <32k）时，32k 模型因无需检索、信息原生存在，表现自然较好。
而此时，4k-RAG 方案可能错过关键信息，拉低了召回率。

🌟 2. 长文本：4k-RAG 后来居上

随着上下文增至 256k，32k 模型无法看到全局信息，即使窗口扩展，也不具备筛选机制。
反观 4k-RAG 通过 BM25 检索找到相关内容，尽管每次输入只有4k，但总能锁定关键块。

🌟 3. 多跳问题：4k-智能体全面碾压

在涉及复杂推理（如 NeedleBench）或多证据整合（如 LV-Eval）任务中，只有 4k-智能体可以逐步拆解子问题并调用工具。
它通过层级 Agent 调用，从多个片段中抽取事实、整合逻辑，最终成功“找到所有针”。

四、案例直观理解：100万字的大海捞针

团队甚至进行了一项压力测试：

给定 100 万个汉字（约合 1M tokens），在其中找到一个关键事实回答问题。

结果：

✅ 32k 模型束手无策：看不到全局内容，无法给出答案
✅ 4k-RAG 检索偏弱：检索片段可能遗漏，精度受限
✅ 4k-智能体成功定位答案：通过多轮拆解 + 分块 + 拼装记忆，最终给出正确响应

这充分说明：上下文窗口大≠理解力强，更重要的是是否具备“主动提取 + 多步推理”的能力。

五、总结对比表

方案	上下文能力	检索能力	推理能力	性能表现
32k-模型	原生支持32k	无	一步推理	中等（短文较好）
4k-RAG	每次仅4k	关键词检索	无	好（文长时更强）
4k-智能体	每次仅4k	多层过滤+BM25	多跳思维链	最佳（全场最佳）

六、博主点评：智能体 vs 大模型，思维能力更重要

阿里团队的这一评测为我们揭示了一个重要观点：

与其一味拉长上下文，不如用智能体拆解任务，用工具组合信息，用思维链提升理解。

尤其是在处理复杂的企业文档、学术资料、政策报告等任务时：

RAG 仍有其价值，但需优化检索与上下文构建策略
长上下文模型若无系统训练，理解力并不可靠
多智能体系统结合 RAG + ReAct + 工具调用，是未来趋势

阿里在Qwen-Agent项目中，针对大模型处理超长文本的挑战，提出了层级智能体方案，并在两个长文本基准测试中进行了评估。测试集包括NeedleBench和LV-Eval，分别测试模型在大量信息中定位关键信息及综合多证据的能力。实验对比了三种策略：32k-模型、4k-RAG和4k-智能体。结果显示，在短文本中32k模型表现较好，但在长文本和多跳问题中，4k-RAG和4k-智能体表现更优，尤其是4k-智能体在复杂推理任务中表现最佳。实验表明，单纯扩展上下文窗口并不能提升理解力，关键在于主动提取和多步推理能力。阿里团队认为，未来趋势是多智能体系统结合RAG、ReAct和工具调用，以提升处理复杂文档的能力。

七、延伸阅读推荐

技术共进，成长同行——讯飞AI开发者社区

更多推荐

PHP与人工智能：结合案例与可能性探索

讯飞AI开发者社区

[论文阅读] 人工智能 + 软件工程 | 真实场景下GitHub Copilot生产力之谜：2年数据揭示客观提交无提升，开发者却直呼“好用”

讯飞AI开发者社区

上下文工程驱动智能体向通用人工智能

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运