ACL 2025最佳论文全解析:四大突破揭秘,引领自然语言处理未来风向标!
在2025年7月27日至8月1日于奥地利维也纳举行的第63届计算语言学协会年会(ACL 2025)大会圆满落幕,作为自然语言处理领域最具影响力的顶级会议,今年的最佳论文奖再次汇聚了业界最前沿的创新成果。四篇获奖论文不仅在理论上取得突破,更在实际应用中展现出强大的推动力,涵盖了语言理解、生成、模型优化等多个关键方向。本文将带你深入剖析这四篇重量级论文,解读它们背后的技术亮点与未来潜力,帮你全面把握自
引子
在2025年7月27日至8月1日于奥地利维也纳举行的第63届计算语言学协会年会(ACL 2025)大会圆满落幕,作为自然语言处理领域最具影响力的顶级会议,今年的最佳论文奖再次汇聚了业界最前沿的创新成果。四篇获奖论文不仅在理论上取得突破,更在实际应用中展现出强大的推动力,涵盖了语言理解、生成、模型优化等多个关键方向。本文将带你深入剖析这四篇重量级论文,解读它们背后的技术亮点与未来潜力,帮你全面把握自然语言处理的最新风向和发展趋势。在本届ACL大会上,中国团队取得了显著成绩,梁文峰博士领导的DeepSeek团队与北京大学的杨耀东团队共同获得最佳论文奖。其中,梁文峰在接受采访时表示,NSA机制的成功得益于团队在算法和硬件优化方面的深度合作。他还强调,中国团队在ACL大会上取得的成绩标志着中国在计算语言学和自然语言处理领域的研究水平不断提升。 (36氪)
ACL 2025 vs 2024
🏅 ACL 2025最佳论文奖评选机制
ACL 2025共收到超过8,300篇投稿,最终接受了1,699篇主会论文和1,392篇Findings论文。 在所有被接受的论文中,117篇被提名为最佳论文候选。 最佳论文评审委员会(Best Paper Committee)从中评选出:
-
最佳论文奖:约0.6%的被接受论文。
-
杰出论文奖:约2.5%的被接受论文。
-
社会影响奖和最佳资源奖:分别表彰在社会影响和资源贡献方面表现突出的论文。 此外,资深领域主席(Senior Area Chairs)还提名了他们认为特别出色的论文,称为SAC Highlights。
ACL 2025 Paper Awards
ACL 2025 四篇最佳论文深度分析
1. A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive
Authors accepting the award
研究内容概要
这篇论文针对大型语言模型(LLM)的响应采样机制提出了一个理论框架,将其视为由描述性(统计常态)和规范性(理想价值)双重成分共同作用。作者发现,当LLM从众多可能输出中采样时,往往不仅遵循训练语料的统计分布,还倾向于朝向模型内隐的“理想”方向偏移(如下图所例)。这种偏移现象在多个现实领域的概念上表现一致,例如公共卫生中的患者恢复时间预测、经济趋势分析等:模型生成的结果会系统性地偏向比平均值更理想的方向。
The figure shows the average, ideal, and sample values reported by the LLM for three different concepts
研究进一步证明,LLM内部对概念的原型表征受规范性理想的影响,类似于人类认知中对于“理想范例”的偏好。通过案例分析和与人类实验结果对比,论文揭示这种朝理想值偏移可能导致模型决策出现显著偏差,带来伦理与公平性隐患。例如,在医疗决策场景中,模型作为“医生”可能由于过于理想化而低估患者的康复时间,进而做出过早出院的错误决定。
审稿人和专家评价
由于上述发现具有新意和深远意义,该工作获得ACL 2025最佳论文奖,受到领域内专家的高度关注。专家评价认为,该研究统一了统计与规范两种视角来解释LLM的采样行为,建立了“统计-规范”双重启发模型,能够预测LLM在医疗、经济等场景下会出现哪些细微偏差。这一理论框架被认为拓展了人们对LLM决策机制的理解,可用于解释LLM输出中的潜在偏见。论文本身在评审中也获得高度评价,被认为“解释了LLM在健康、经济输出中的细微偏差,并为政策审计提供信息”。作为跨学术和产业合作的成果(作者来自CISPA研究所、微软、TCS研究等),该研究关联了人类认知决策启发式与AI模型行为,评审意见称其为理解和审计LLM决策提供了新的视角。
Authors presenting the award certificate
技术路线与方法
作者首先通过理论分析提出了LLM响应采样的双重成分模型:将模型的输出视为由描述性分布(反映训练语料的统计频率)叠加一个规范性偏移(模型内部对理想结果的偏好)而成。为了严格验证这一理论,研究设计了一项关键实验:引入虚构的新概念“glubbing”,并让模型在完全缺乏先验的情况下对该概念进行响应采样。通过使用不存在于训练语料中的全新概念,可以消除已有知识的干扰,纯粹考察LLM的采样机制是否仍呈现描述/规范双重倾向。实验中,作者对模型给出的关于“glubbing”的回答进行了统计分析,并与人类被试在同样条件下对该概念进行回答的结果进行对比:共招募了1200名参与者,在不同条件下回答关于该虚构概念的问题(如下图所示,即使面对一个完全陌生的新概念,LLM的采样行为仍然表现出既考虑了统计常见值,也受到了某种“理想”偏好的影响,这和人类认知中“统计规范 + 价值规范”的双重驱动机制相似)。
Estimates of the average amount of glubbing (green) and mean of samples (red) for the unimodal (left)and bimodal (right) conditions
这种LLM-vs-人类的对照实验方法,使作者能够观察模型在无先验知识情况下的采样行为与人类直觉有何异同。除了新概念实验,论文还进行了多个现实概念领域的广泛测试,涵盖公共健康、经济等主题,定量衡量LLM输出相对于训练数据分布的偏移程度。技术方法上,作者采用统计测度来比较模型输出分布与真实数据分布,并通过原型提取分析模型对概念的内部表示;同时参考认知科学文献,将LLM的偏移现象类比于人类决策中的“理想范式”偏向。
与已有主流技术路线的比较与创新点
与以往针对LLM输出偏差所做的研究不同,该工作从人类决策启发式理论出发,提出了LLM采样的新颖解释框架。在主流观点中,人们往往将LLM输出偏差简单归因为训练数据分布不均或模型漏洞,而该论文创新性地指出模型自身会内生出“规范性理想”,即使在无偏的数据下模型也可能倾向于给出某种理想化答案。这一观点与经典决策心理学中“人们心中有理想选项”的理论不谋而合,属于对LLM行为机理的全新洞察。此外,在技术路线方面,此前很少有工作将人类认知实验直接引入LLM评估。该论文大胆地设计了人机对比实验,并借鉴认知科学中验证概念原型效应的方法(如Bear等人2020年的框架)。这种交叉学科的方法使研究更具说服力,填补了LLM采样行为缺乏解释理论的空白。综上,本研究的创新点在于:1)理论上提出描述性/规范性双要素模型,丰富了对LLM内部决策heuristic的认知;2)方法上采用虚构概念实验和大规模人类对照实验,实现了对模型偏差的严格验证;3)发现上揭示了模型偏差来源于内在规范倾向的普遍性,为改进LLM提供了新思路。
潜在意义和影响
这项研究的意义体现在学术和应用两个层面。一方面,它将LLM的行为与人类认知偏差理论建立了联系,表明大型模型在决策时可能和人类一样具有理想化倾向。这为学术界进一步研究AI决策偏差打开了新的方向,可激发更多后续工作去探究模型内部的价值观表征和偏差成因。另一方面,在应用上,论文敲响了警钟:如果在高度自动化的决策中依赖LLM,这种理想化偏移可能导致系统性偏见和错误。特别是在医疗、金融等对决策准确性要求极高的领域,LLM输出的微小偏差都可能造成严重后果。因而该发现促使工业界在部署LLM时需要更加谨慎,增加对模型输出的审计和校准。例如,监管机构在制定AI治理政策时,应关注模型训练过程中潜藏的规范性倾向,而不仅仅是评估部署阶段的表面行为。此研究提供的方法(如构造差异性测试场景)也可用于政策审计:定期检测模型在关键决策任务上是否存在系统性理想化偏见,并据此制定纠偏策略。总的来说,该论文为AI伦理与安全提供了重要参考,将有助于提高LLM在关键决策应用中的可靠性。
2. Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs
Authors accepting the award
研究内容概要
传统的算法公平性研究大多采用“差别视同”(色盲原则)的理念,即对不同群体一视同仁,以消除偏见。然而,该论文指出在许多重要情境下,需要关注群体差异以实现真正的公平(如下图例子)。
LLMs debiasing
鉴于此,作者提出从“区别对待”的全新角度来研究公平性问题,关注在适当情境下的群体差异如何影响模型决策。论文的核心是在LLM中衡量“理应存在”的群体差异:也就是模型在何种情况下应当对不同群体做出不同响应以体现公平。为此,作者首先引入了三个类别的公平性基准:分别是描述性偏见(基于客观事实的差异)、规范性偏见(基于价值判断的差异)和相关性偏见(基于统计关联的差异)。他们强调,不同类别的差异需要不同的解释和缓解策略,不能一概而论(如下图为现有benchmark)。
Literature review of 37 existing fairness benchmark papers for language models
接下来,作者构建了一个全面的公平评测基准套件:涵盖八种不同应用情景、总计16,000个提问,专门用于评估LLM是否具备“差异意识”(如下图所示)。这些场景涉及法律、公卫、教育等领域,每个场景下设定了在公平决策中群体差异可能发挥作用的问题。
The eight benchmarks that compose this benchmark suite
最后,论文在十个主流LLM上进行了实验测评,结果表明模型在差异意识维度上的表现千差万别,并且差异意识已成为公平性的一个独立维度。值得注意的是,研究发现当前一些主流的消除偏见方法(例如简单地遮蔽群体信息等)在差异意识维度下可能适得其反:过于“色盲”的处理反而削弱了模型在必要情境下区别对待的能力。这一发现凸显了在公平性评估中引入差异意识的重要性。
审稿人和领域专家评价
该论文同样荣获ACL 2025最佳论文奖,反映出学界对其创新性的高度认可。审稿人认为作者勇于挑战传统公平性框架,在数学上方便但实质上狭隘的“一刀切”平等观之外,引入了“差异公平”的新视角。特别是作者提出的三类基准(描述/规范/相关)获得好评,被认为清晰地区分了不同偏见成因,对今后的偏见缓解研究有指导意义。一些从业者在社交媒体上也指出,“色盲式”的去偏可能隐藏更深的问题:完全忽视群体差异可能使模型丧失对某些弱势群体的敏感度,反而不利于公平。因此,本论文得到广泛关注,被视为AI公平性研究的一次重要突破。其提出的差异意识概念和评测框架,预计将很快被后续研究和实际应用采用,用于更全面地衡量模型的公平表现。
潜在意义和影响
本研究在公平性领域具有深远影响。首先,它丰富了公平性的内涵。以往很多研究将零差别待遇当作公平的金标准,而该论文提醒大家:真正的公平可能需要根据情境引入差异。其次,作者构建的差异公平评测基准为学界和工业界提供了一套新的衡量工具。模型开发者可以使用该基准测试自家模型,在发布前了解模型在差异公平方面是否存在缺陷。例如,大型语言模型在回答与法律相关的问题时,是否懂得区分成年人和未成年人,这是很重要的能力。再者,这项研究提高了公平性研究的门槛:今后提出的新模型,除了要在一般性能上表现优秀,也需要在差异公平维度有良好表现,否则就可能被视为不够健全。这无疑会驱动产业界改进算法,使AI更加公正地服务不同群体。另外,在监管和伦理方面,该工作给予启发——监管机构在评估AI系统公平性时,可以参考差异意识维度来设计测试,避免盲目推行“一刀切”的公平准则。最后,这篇论文还可能影响后续的偏见缓解技术研发:开发者或许会尝试设计差异敏感的训练方法,让模型在学习中就掌握何时该区别对待、何时应一视同仁,从源头上打造对情境更加敏感的AI模型。
3. Language Models Resist Alignment: Evidence From Data Compression
Authors accepting the award
研究内容概要
大语言模型在经过后期微调(如指令对齐、人类偏好训练)后,真的完全服从了人类意图吗?本论文从理论和实证两个层面给出了令人警醒的答案:大型模型会抗拒对齐。作者发现,在模型参数中潜藏着一种源自预训练阶段的“弹性”机制,使得模型在经过对齐微调后,仍倾向于逐渐回弹回原始预训练时的行为分布。换言之,LLM并非一张任人书写的白纸;相反,它更像一块橡皮筋,被拉向人类期望方向后会产生回缩的力。这一机制导致模型在面对与预训练分布不一致的指令时,会表现出抵抗:短暂配合后可能重新显现出未对齐前的倾向,从而出现对齐失效的行为。论文利用数据压缩理论形式化地证明了这一点:相比预训练,后训练(微调)的影响对模型分布的“塑造力”要小得多。实验证实,大模型经过一定程度的微调后,再继续用其他数据微调,其性能会先明显下降,随后部分恢复到原始水平——这表明模型正在“忘掉”对齐部分,回归预训练状态。而且,作者进一步指出,模型规模越大、预训练用的数据越多,这种弹性就越强,在对齐时发生回弹的风险也越高(如下图所示)。
The Elasticity of Language Models
令人担忧的是,这意味着我们先前认为有效的诸多对齐手段(例如小规模的微调、人类反馈等)可能只是表面奏效,模型很可能并没有真正改变内在分布,只是暂时被“按住”而已。一旦条件发生变化(比如换个新任务继续训练),模型就可能露出原形。简而言之,这篇论文发出了重要警示:模型对齐的难度被低估了,实现真正深入、持久的对齐仍“任重道远”。
审稿人和领域专家评价
该研究因其颠覆性发现斩获ACL 2025最佳论文。在大会上,评审专家们对论文给予了一致高度评价,认为作者提出的“弹性”概念突破性地揭示了LLM在对齐过程中的内在机制。ACL大会主席评论道,这项工作搭建起压缩理论、模型可扩展性和安全对齐之间的桥梁,研究不仅理论分析深入、实证结果扎实,而且对日后的AI治理和安全具有深远启发意义。许多领域专家在会后讨论中指出,此前业界对于模型对齐过于乐观,往往寄希望于“小规模微调”能解决大问题,而本论文提供了强有力的反证。Meta等公司的研究员也在社交平台上热议这一成果,称其为“AI对齐领域的一座里程碑”,因为它直指问题本质:预训练赋予模型的惯性极难消除,不能低估这种路径依赖的力量。一些专家甚至将“弹性”(elasticity)比喻为模型的“记忆力”或“惰性”,认为这解释了为什么某些深度灌输人类价值观的尝试收效有限。这篇论文在评审时还特别被提及了其理论严谨性:它用信息论工具定量描述了弹性系数和模型参数的关系,让这一概念有了坚实的数学基础。总的来说,社区评价认为此研究敲响了警钟,并为理解和解决对齐脆弱性问题提供了新的理论框架。
技术路线与方法
作者在技术上巧妙地将信息论中的压缩理论引入到模型训练过程的分析中。他们将预训练和微调视为两种“数据压缩”过程:预训练让模型压缩海量语料的信息,而微调试图在模型已有“压缩”基础上再刻画人类偏好分布。论文定义了Token树模型和压缩协议等概念,将模型的学习过程等价为对数据进行分层Huffman编码压缩。在此框架下,作者严格推导了一个定理,描述模型在不同数据集上的压缩损失变化与数据规模的关系,形象地将模型视作若干串联的弹簧:预训练的数据量越大,弹簧越硬,后续微调对其拉伸(改变分布)的效果越小。这一理论结果定量说明了“弹性”的存在(如下图)。
Theorem
接着,作者通过一系列实验证据加以验证:他们选取了多个模型(包括7B和13B参数的LLaMA2、8B参数的自研模型Gemma、以及更大的模型等),先对这些模型进行了偏好对齐微调,然后再进行“反向微调”(即用接近预训练分布的新数据继续训练),观察模型性能指标的变化轨迹(如下图)。
Experimental results for validating the existence of rebound
结果一如理论所料:模型性能在刚开始反向微调时急剧下降(表示对齐效果被破坏),随后逐步回升并接近未对齐前的水平。这个过程对应了模型先抵抗新指令(性能下降),继而回弹回原始状态(性能回升)的现象。此外,作者改变模型大小和新数据量(参考下图),发现模型越大/预训练数据越多,回弹越快越彻底。
Experimental results for validating rebound increases with model size
Experimental results for validating rebound increases with pretraining data volume
这验证了弹性与模型复杂度的关系。为了确保结论稳健,论文还在不同类型任务上测试了这一效果,发现无论是问答、摘要还是代码生成,对齐的脆弱性普遍存在。通过理论+实验结合,作者严格证明了LLM存在内在对齐极限,并提出用**“弹性系数”**这样的度量来评估某个模型有多大倾向保留原始分布。
潜在意义和影响
这项工作的影响是深远且多方面的。首先,对AI安全研究而言,这是一个重要信号:现有大型模型的对齐程度可能被高估了,我们不能掉以轻心。模型“装作”对齐但实际仍保留原有倾向的情况,将给实际部署带来风险。例如,一个经过微调的聊天机器人表面上不再产生有害言论,但在长时间对话或不同域的数据激发下,可能重新出现问题——这正是弹性作用的体现。因此,工业界在部署LLM时,需要考虑对齐效果的长期稳定性,不能假设一次微调永远有效。其次,该研究对监管政策也有启示意义:监管机构在制定AI模型使用规范时,可能需要将模型的训练过程纳入审查,而非只看最终行为。因为正如论文所示,预训练数据和方式对模型最终行为有根本性影响。如果要求可信的对齐,或许需要从源头数据治理和预训练阶段就开始介入。第三,论文为学术界提供了一个新的评价指标:弹性系数。未来研究者可以使用这一概念衡量不同模型对齐的持久性,将其作为衡量模型“可塑性”的一项指标。例如,在比较两个模型的安全性时,不仅要看它们有没有经过RLHF,还可以比较它们的弹性大小,以判断哪个模型对齐后更不容易“变坏”。第四,这项发现可能会影响未来的大模型研发路线。如果对齐注定需要耗费类似预训练量级的资源才能做到深透,那么业界可能会认真考虑在预训练阶段融入对齐(例如在训练目标中加入人类偏好),或者开发全新的基础架构,使模型从一开始就具备容易对齐的特性。这都需要投入大量研究力量。总之,“弹性”概念的提出将改变人们对模型对齐难度的认知,在AI安全、政策和技术研发层面都会产生持续影响。
4. Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
Award presentation ceremony
研究内容概要
“Native Sparse Attention”(NSA)论文提出了一种全新的Transformer注意力机制,即原生可训练的稀疏注意力机制,并且从设计上确保与硬件的高度对齐。其目标是在超长上下文的模型训练和推理中实现大幅提速,同时保持模型性能与全注意力机制相当(参考如下图)。
Comparison of performance and efficiency between Full Attention model and NSA
长上下文序列的建模能力被广泛认为是下一代LLM的关键需求,因为许多实际应用(如复杂推理、代码库生成、多轮对话等)都需要模型处理上万甚至更多的Token。但传统的全自注意力机制计算开销随序列长度二次增长,面临严重的效率瓶颈。为了解决这个问题,研究者们近年探索了各种稀疏注意力策略:例如仅保留部分Key/Value(KV)缓存、块状局部注意力、以及基于采样、聚类、哈希等的选择方法。
然而,这些方法在实际大模型部署中往往未达到预期效果:许多号称加速的稀疏方案由于硬件实现不佳,理论增益难以转换为实际速度提升;此外,大部分方法只关注了推理阶段,在模型训练时无法高效利用稀疏模式。针对上述痛点,NSA提出了一套全新的动态分层稀疏策略,既保证了全局信息的获取,又兼顾局部精细的注意力,从而显著降低计算量。具体而言,NSA将注意力计算划分为三条并行分支(如下图):一条通过压缩的粗粒度token捕获全局模式,另一条对细粒度token进行选择性保留以关注关键细节,第三条采用滑动窗口机制确保本地上下文信息不被忽略。通过这三部分协同工作,每个查询向量只需关注大幅减少的若干内容而非全部序列,从而达到稀疏而高效的目的。
Overview of NSA’s architecture
更重要的是,NSA并非简单的概念论证,而是实现了端到端的可训练:作者在Transformer架构中直接集成该稀疏机制,成功预训练了一个27B参数、上下文长度64K的模型,用2600亿tokens对其进行训练。实验证明,NSA模型在通用语言理解、超长文本处理和复杂推理任务上的表现媲美甚至优于等规模的全注意力Transformer(如下表);同时,在实际速度上取得了巨大提升——推理解码、前向传播、反向传播各阶段都显著快于全注意力,而且序列越长加速比例越高。这些结果展示了NSA在性能与效率上的兼顾,堪称长文本Transformer的新范式。
Pretraining performance comparison between the full attention baseline and NSA
Performance comparison between our NSA and baselines on LongBench
审稿人和领域专家评价
NSA论文同样荣膺ACL 2025最佳论文之一,被认为在大模型效率领域取得了突破性进展。评审专家赞扬该工作“从根本上重塑了Transformer的注意力机制,使长文本处理的算力效率得到飞跃式提升”。尤其值得一提的是,论文的作者团队包括工业界创业公司DeepSeek和学术界的北京大学、华盛顿大学等,这种强强联合产出了高质量成果。评审认为NSA的设计兼顾算法创新与工程实现,使其在实际硬件上达到了预期的加速效果,这是许多前人工作未能做到的。ACL大会公布获奖时指出,NSA方法的出现对于所有需要处理长文本的模型训练者来说将是“无法抗拒的选择”,因为它意味着在不损失效果的情况下,大幅降低GPU算力和时间成本。有专家进一步评论,NSA抓住了稀疏注意力领域长期存在的两个难题(硬件适配和训练支持),并提供了全面的解决方案:这将推动以往那些停留在理论加速的稀疏方法向实用化发展。总体而言,领域内评价认为NSA为长序列建模树立了新标杆,它证明了通过巧妙的架构和内核优化,可以在保持模型能力的同时大幅提升效率,这对大模型的未来发展具有巨大价值。
技术路线与方法
在技术实现上,NSA的路线可分为稀疏模式设计和系统优化实现两方面。首先,在算法层面,作者设计了前述三分支稀疏注意力模式,并提出一种分层Token建模方法:将序列划分为若干时间块,每个块内进一步区分重要Token和一般Token。具体来说:在压缩分支中,每个块被压缩成少量粗粒度表示,用于捕捉全局信息模式;在选择分支中,通过判别机制筛选出各块中最重要的一小部分细粒度Token,仅它们参与跨块注意力计算;在滑动窗口分支中,为每个查询Token引入一个固定长度的上下文窗口,确保相邻Token间的局部依赖被模型捕获。这三部分综合起来,使每个查询只需与远少于全序列长度的表示进行注意力计算,极大减少了计算量。其次,在系统层面,作者非常注重硬件友好性。针对现代GPU(尤其是NVIDIA A100上Tensor Core)的架构特点,他们为NSA开发了定制的CUDA内核实现(如下图)。为了充分发挥并行计算能力,NSA内核在执行时平衡了计算与内存访存,减少了因稀疏访问导致的GPU空转。同时,作者让NSA的稀疏模式在训练过程中也是可导且高效的,解决了很多稀疏方法只能推理用、训练仍需全注意力的问题。通过这些优化,NSA实现了端到端加速:既让推理提速,也降低了训练的计算成本。总的来说,NSA技术路线的高明之处在于:算法设计与硬件优化并行推进。一方面提出新颖有效的稀疏算法,另一方面确保该算法可以切实地映射到硬件加速上。这种协同设计理念是NSA成功的关键。
Kernel design for NSA
与已有主流技术路线的比较与创新点
NSA相较于先前的稀疏注意力研究,有多项重大创新。首先,它是同时针对推理和训练的全面方案。过去多数方法(如经典的Longformer、BigBird等)更多着眼于推理阶段的稀疏计算,训练时仍采用全注意力,因而未能降低预训练成本。而NSA在架构上天然支持训练阶段的稀疏计算,真正做到了从训练到推理的一体化加速。其次,NSA特别强调硬件对齐(Hardware-Aligned)。许多理论上优秀的稀疏方案在GPU上的实际效率不佳,原因是访存瓶颈、并行度不够等。NSA则在设计之初就考虑了GPU执行的特点,如块稀疏的实现、Tensor Core的利用等,成功地将算法增益转化为了实际速度提升(例如下图)。第三,NSA采用了动态分层的稀疏策略,融合了全局粗粒度和局部细粒度信息,这是对以往单一稀疏模式的提升。以往方法可能只做局部窗口或随机采样,难免丢失全局语义;NSA通过三通道并行,最大程度保留了信息。第四,它真正验证了“稀疏不损性能”这一点。虽然有理论认为合理的稀疏注意力可以近似全注意力,但在大型真实任务上做到性能无损是非常困难的。NSA通过巧妙设计和大规模预训练,成为少数可以声称与全注意力性能相当且在部分任务上更优的方案。最后,NSA的实验规模和效果远超以往工作:作者训练了业界罕见的64K长度模型并取得成功,这本身树立了新的记录。综合来看,NSA的创新点在于全面性和实用性:不是提出一个理想化的方法,而是落地了一个可用的方案,在真实大模型训练中证明了其价值。这标志着稀疏注意力研究迈出了从理论走向实践的关键一步。
Comparison of Triton-based NSA kernel with Triton-based FlashAttention-2 kernel
基于论文工作的未来研究方向
自DeepSeek团队提出原生可训练稀疏注意力机制(Native Sparse Attention,NSA)以来,学术界和工业界在其基础上进行了多方面的扩展和演进,主要体现在以下几个方向:
推理优化与硬件对齐
在推理阶段,针对长序列的高效处理,研究者提出了多种优化策略:
-
SeerAttention-R:微软研究院提出的SeerAttention-R框架,针对推理模型的长解码进行了稀疏注意力的适配,采用自蒸馏的门控机制,实现了高效的长序列推理。 (arXiv)
Training Diagram and Training Kernel of SeerAttention-R
多模态与图结构的扩展
NSA的思想被扩展到多模态和图结构数据处理:例如 BSA(Ball Sparse Attention):针对无序点集数据,采用球树结构实现稀疏注意力,降低了计算复杂度(参考下图)。 (arXiv)
Ball Sparse Attention (BSA) pipeline
推理阶段的稀疏策略
针对推理阶段的效率,研究者提出了多种稀疏策略(与NAS相结合的可能点):
-
Quest:通过查询感知的稀疏策略,提升了推理阶段的效率。 (arXiv)
Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference
-
DuoAttention:将注意力头分为检索型和流式型(参考下图),优化了长序列推理的内存使用。 (arXiv)
Overview of DuoAttention
-
LongRAG:扩展了检索增强生成(RAG)模型,结合长上下文处理,提升了生成质量。(arXiv)
LongRAG: Enhancing Retrieval-Augmented Generationwith Long-context LLMs
总之,NSA作为一种高效的稀疏注意力机制,为处理长上下文提供了新的思路,其在学术界和工业界的广泛应用,推动了大规模语言模型的发展。
更多推荐
所有评论(0)