1 instruction tuning & in context learning

论文名称 来源 主要内容
Finetuned Language Models Are Zero-Shot Learners 2021

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

早期做instruction tuning的work

MetaICL: Learning to Learn In Context 2021

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

in-context learning都是没有finetune过程,这里相当于finetune了一下 

Rethinking the Role of Demonstrations: What  Makes In-Context Learning Work?

2023

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

在in-context learning的时候,故意给一些错误的例子、其他领域的返利,看看大模型的效果

——>这篇论文的结论是,in-context learning只起到“唤醒”的作用,LLM本身就具备了所需要的功能。这里给LLM范例的作用只是提示LLM要做这个任务了

Larger language models do in-context learning differently 2023

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

在更大的LLM中,in context learning 确实也起到了让模型学习的作用

2 Chain of Thought

论文名称 来源 主要内容
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models  2022
  • 如果是数学这种需要推理的问题,直接给 in-context learning 往往效果若不好
  • 而如果我们给范例的时候,同时给推导过程+答案。期望模型输出答案的时候,也先输出推导,再输出答案
  • 这就叫Chain of Thought Prompting

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

Large Language Models are Zero-Shot Reasoners 2022

在进行CoT的时候,范例输完了,需要模型回答的问题说完了,加一行’Let's think step by step',可以获得更好的效果

机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

论文略读:If Multi-Agent Debate is the Answer, What is the Question?-CSDN博客 2025

目前多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought
在 36 种实验配置(覆盖 9 个常见数据集与 4 种大模型)中,MAD 的胜率不足 20%。
——>论文提出Heter-MAD,通过简单引入异构模型智能体,无需修改现有 MAD 框架即可稳定提升性能(最高达 30%)

论文笔记:Measuring Chain of Thought Faithfulness by Unlearning Reasoning Steps-CSDN博客 202502 arxiv

论文引入了一种全新的度量方法 —— 参数可信度框架(P),用于系统评估语言模型推理的可信度。

  • 其核心思想是:从模型中“移除”某个推理步骤所包含的知识,然后观察该步骤是否对最终答案起到了关键作用。

3 others

论文略读:Onthe Expressivity Role of LayerNorm in Transformers’ Attention-CSDN博客 ACL 2023 LayerNorm为Transformer的Attention提供了两个重要的功能:
  • 投影,projection
  • scaling 缩放
论文笔记:Frozen Language Model Helps ECG Zero-Shot Learning_冻结语言模型帮助心电图零样本学习-CSDN博客 2023 MIDL

利用临床报告来引导ECG数据的预训练,实现ECG数据的零样本学习

Is ChatGPT A Good Translator? A Preliminary Study 2023

专项翻译任务上,ChatGPT不如一些专门做翻译的模型

论文笔记:Evaluating the Performance of Large Language Models on GAOKAO Benchmark-CSDN博客 测评gpt在高考各科(文理)上得分的异同
How Good Are GPT Models at  Machine Translation? A  Comprehensive Evaluation 2023

专项翻译任务上,ChatGPT不如一些专门做翻译的模型

论文笔记:Can Large Language Models Beat Wall Street? Unveiling the Potential of AI in Stock Selection-CSDN博客 202401 arxiv

提出了 MarketSenseAI,整合了多种数据来源,包括实时市场动态、财经新闻、公司基本面和宏观经济指标,利用GPT-4生成全面的投资建议

论文笔记:Lost in the Middle: How Language Models Use Long Contexts_lost in the middle人工智能-CSDN博客 Transactions of the Association for Computational Linguistics  2024
  • 在处理需要识别相关上下文的信息的任务(文档问答、键值对索引)时,大模型对相关信息的位置很敏感
  • 当相关的信息在输入prompt的开头或者结尾时,能够取得较好的效果
  • 而当相关的信息在prompt中间部分时,性能会显著下降。

论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS-CSDN博客 iclr 2024 spotlight  reviewer 评分 6668
ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models-CSDN博客 iclr 2024 oral reviewer 评分 688

目前LLM社区中通常使用GELU和SiLU来作为替代激活函数,它们在某些情况下可以提高LLM的预测准确率

但从节省模型计算量的角度考虑,论文认为经典的ReLU函数对模型收敛和性能的影响可以忽略不计,同时可以显着减少计算和权重IO量\

论文笔记:The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”-CSDN博客 iclr 2024 reviewer 评分668
  • 论文揭示了自回归大模型(LLM)中令人惊讶的泛化失败【反转诅咒】
    • 如果模型在“A is B”形式的句子上进行训练,它不会自动泛化到相反的方向“B is A”
论文笔记:The Expressive Power of Transformers with Chain of Thought-CSDN博客 ICLR 2024 reviewer 评分 6888

论文描述在生成答案前采取中间步骤的Transformer解码器的推理能力,并将其与没有中间步骤的Transformer进行比较
提供了Transformer能力的上限和下限,取决于t(n):允许的中间步骤数量作为输入大小n的函数。
主要关注三种情况:
对数步骤(当t(n) = Θ(log n))
线性步骤(当t(n) = Θ(n))
和多项式步骤

论文笔记:BooookScore: A systematic exploration of book-length summarization in the era of LLMs-CSDN博客 iclr oral reviewer 评分 88810
  • 论文通过两种提示工作流程首次展示了基于LLM的书籍长度总结器
    • (1)层次性合并块级总结
    • (2)逐步更新运行中的总结
  • 由于人类评估昂贵且耗时,论文开发了一种自动度量标准,BooookScore,用于测量总结中不包含任何已识别错误类型的句子的比例
论文略读:LLMCarbon: Modeling the End-to-End Carbon Footprint of Large Language Models-CSDN博客 iclr 2024 oral reviewer 评分 556810  论文提出了一个端到端的碳足迹预测模型LLMCarbon
  • 可以准确预测密集型和MoE LLMs在其训练、推理、实验和存储阶段的碳足迹
论文略读:Memorization Capacity of Multi-Head Attention in Transformers-CSDN博客 iclr spotlight reviewer评分 6888 论文研究了一个具有H个头的单层多头注意力(MHA)模块的记忆容量
论文略读:EDT: Improving Large Language Models’ Generation by Entropy-based Dynamic Temperature Sampling-CSDN博客 南大 2024年3月的work
  • 论文提出了EDT方法
    • 在每个解码步骤中动态选择温度
    • 在文本摘要、问答和机器翻译等代表性基准上评估了EDT策略,效果都更好
      • 在生成质量和多样性之间取得了更好的平衡,并且几乎不增加推理成本
论文略读:Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore-CSDN博客 arxiv 202405

人类在写作时比语言模型更容易犯语法错误

论文笔记:Does Writing with Language Models Reduce Content Diversity?-CSDN博客 iclr 2024 reviewer评分 566

同质化:使用LLM写作的用户彼此写得是否更相似?
使用InstructGPT的组在同质化程度上高于控制组和GPT3组
通过将模型贡献的文本与每篇文章的总结要点匹配,我们发现InstructGPT贡献的要点导致了同质化增加
多样性:与LLM一起写作是否降低了一组用户产生的内容的多样性?
与InstructGPT一起写的文章集合显示出较低的词汇多样性,并且表达的关键点的多样性也降低  

论文略读Fewer Truncations Improve Language Modeling-CSDN博客 icml 2024

在传统LLM训练过程中,为了提高效率,通常会将多个输入文档拼接在一起,然后将这些拼接的文档分割成固定长度的序列。
——>会造成一个重大问题——文档截断(document truncation),损害了数据完整性(data integrity)
此外,文档截断减少了每个序列中的上下文量,可能导致下一个词的预测与上文不相关,从而使模型更容易产生幻觉 (hallucination)。

论文提出了最佳适配打包 (Best-fit Packing)

  • 使用长度感知的组合优化技术,有效地将文档打包到训练序列中,从而完全消除不必要的截断。
  • 不仅保持了传统方法的训练效率,而且通过减少数据的片段化,实质性地提高了模型训练的质量
论文略读: LLaMA Pro: Progressive LLaMA with Block Expansion-CSDN博客 提出了一种用于LLMs的新的预训练后方法
  • 包括Transformer块的扩展
  • 仅使用新语料库调整扩展块,以高效而有效地提升模型的知识,而不引发灾难性的遗忘
论文略读:Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?-CSDN博客
论文提出了LOFT(Long-Context Frontiers)基准测试,全面测试长上下文模型的能力
论文略读: Scaling laws with vocabulary: larger model deserve larger vocabularies-CSDN博客 更大的模型应该配备更大的词表,且在给定算力的情况下,最优的词表大小是有上限的
论文略读: TransTab: Learning Transferable Tabular Transformers Across Tables-CSDN博客 2022 neurips
  • motivation:有若干个有标签的表格,但是每个表格的列名(代表的属性)都不大一样
    • 怎样把这些表格都利用起来,学习一个普适的embedding
    • ——>利用列名
论文笔记:Are we there yet? Revealing the risks of utilizing large language models in scholarly peer revi-CSDN博客 202412 arxiv  大语言模型在审稿中存在各种潜藏的风险

论文略读:Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers-CSDN博客

ICLR 2025 5666

研究LLM是否能生成真正新颖且具专家水平的研究构想

LLM 生成的研究想法在新颖性方面被评价为优于人类专家构想(p < 0.05)
但在可行性方面略逊一筹

论文略读:MLPs Learn In-Context on Regression and Classification Tasks-CSDN博客 ICLR 2025 36688

多层感知机(MLPs)也具备学习 in-context 能力

在相同计算预算下,MLPs 及其相关架构 MLP-Mixer 在 ICL 表现上可与 Transformers 相媲美

论文略读:Theory, Analysis, and Best Practices for Sigmoid Self-Attention-CSDN博客 ICLR 2025 566

证明了使用 sigmoid 注意力的 Transformer 是通用函数逼近器,并且相比于 softmax 注意力,它在正则性方面更具优势

提出了 FLASHSIGMOID,这是一种面向硬件、内存高效的 sigmoid 注意力实现版本

论文略读:LLMEmbeddings for Deep Learning on Tabular Data-CSDN博客 202502 arxiv

论文将每个特征-取值对转化为一个句子,例如:“Age is 45”, “Income is High”, “Has Loan is Yes”

使用 LLM 编码这些句子,获得特征级嵌入

将这些嵌入作为输入提供给表格深度学习模型(如 FT-Transformer)

无需对 LLM 进行微调,即可提升模型表现

论文略读:RegMix: Data Mixture as Regression for Language Model Pre-training-CSDN博客 iclr 2025 688

LLM的预训练数据混合比例对模型性能有显著影响,但如何确定一个有效的数据混合策略仍不清楚

提出了 RegMix,一种将数据混合选择建模为回归任务、用于自动识别高性能数据混合比例的方法

论文略读:Large Language Models Assume People are More Rational than We Really are-CSDN博客 ICLR 2025 5668

大模型普遍高估了人类的理性程度,它们更倾向于依据经典的**期望值理论(expected value theory)**来预测行为,而不是符合真实人类的决策模式。

论文略读:When Attention Sink Emerges in Language Models: An Empirical View-CSDN博客 ICLR 2025  spotlight  688

ICLR 2025  spotlight  688


语言模型(Auto-regressive Language Models, LMs)通常会对首个 token 分配显著注意力,即使该 token 并无语义重要性,这种现象被称为 “注意力陷阱”(attention sink)

论文证明了:注意力陷阱普遍存在于各种输入下的自回归语言模型中,即便是在小模型中也会出现

此外,另一个结论是,注意力陷阱会在预训练过程中逐渐显现

论文略读:From Words to Worth: Newborn Article Impact Prediction with LLM-CSDN博客 AAAI 2025

微调LLM,引导它来根据题目和摘要预测一个0-1之间的文献计量学指标

论文略读: NutriGen: Personalized Meal Plan Generator Leveraging Large Language Models to Enhance Dietar-CSDN博客 202503 arxiv
  • 论文提出了 NutriGen:一个个性化膳食推荐系统,旨在通过生成全面且易于使用的每日膳食计划,克服现有方法的局限性
    • 该系统为用户提供多种饮食计划,每个计划包括早餐、午餐、晚餐和加餐建议,并附有热量信息、营养成分与食谱说明
    • 通过结合大语言模型(LLMs)与提示工程(prompt engineering),该系统可根据用户偏好、饮食限制及食材可得性生成完全个性化、实用性强的饮食推荐

论文略读:Eeyore: Realistic Depression Simulation via Supervised and Preference Optimization-CSDN博客 ACL 2025

论文提出了一种结构化对齐框架,旨在优化 LLM 在临床训练场景中对抑郁个体的语言、认知模式和体验特征的模拟能力

论文略读: R2: A LLM BASED NOVEL-TO-SCREENPLAY GENERATION FRAMEWORK WITH CAUSAL PLOT GRAPHS-CSDN博客 202503 arxiv

LLM+小说转剧本

论文略读:AIstorian lets AI be a historian: A KG-powered multi-agent systemfor accurate biography genera-CSDN博客 202503 arxiv 论文提出了 AIstorian,一个创新的 agentic 系统,用于实现高质量传记生成
  • 该系统由知识图谱(KG)驱动的 RAG 机制抗幻觉多智能体(multi-agent)模块组成

论文略读:ATraining-free LLM-based Approach to General Chinese Character Error Correction-CSDN博客 202502 arxiv

LLM+通用中文字符错误(General Chinese Character Errors,简称 C2E)

4 大模型+时间序列

论文名称 来源 主要内容
论文略读:Graph based embeddinglearning of trajectory data for transportation mode recognition by fusing -CSDN博客 IJCAI 2023

交通方式识别本质上属于语义分析,主要依赖上下文语境的理解
可以类比为NLP中分析词语间关系
将轨迹视为一个“句子”,将每个轨迹特征点看作是一个“词”,部分位置可视为语义关键“词”(如“主语”、“谓语”或“宾语”),其他则可视为“修饰词”
轨迹点之间(即关键“词”之间)的强相关性可以被建模为结构化图中的边

论文笔记: One Fits All:Power General Time Series Analysis by Pretrained LM_UQI-LIUWJ的博客-CSDN博客 2023 neurips
  • GPT2的Transformer
    • 冻结自注意力层+FFN层
    • 微调位置嵌入和Layer Norm
  • 使用Patching的方式将时间序列分块,以进行tokenize
  • 证明了预训练模型中的Transformer有类似于PCA的非特定数据集相关能力
论文笔记:How Can Large Language Models Understand Spatial-Temporal Data?-CSDN博客 arxiv 202401
论文笔记:Large Language Models Are Zero-Shot Time Series Forecasters-CSDN博客 2023 neurips
论文笔记;LargeST: A Benchmark Dataset for Large-ScaleTraffic Forecasting-CSDN博客 2023 neurips 提出了一个新的基准数据集LargeST
  • 广泛的图大小,包括加利福尼亚州的8,600个传感器
  • 丰富的时间覆盖和丰富的节点信息——每个传感器包含5年的数据和全面的元数据
论文笔记:PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting-CSDN博客 TKDE 2023\
论文笔记:TEST: Text Prototype Aligned Embedding to ActivateLLM’s Ability for Time Series_UQI-LIUWJ的博客-CSDN博客 2023

对比学习学习时间序列token的embedding,然后将时间序列token的embedding和文本token的embedding进行对齐,并利用soft prompting进行后续大模型训练

论文笔记:TimeGPT-1-CSDN博客

时间序列的第一个基础大模型

论文笔记:Spatial-Temporal Large Language Model for Traffic Prediction-CSDN博客 arxiv 2024 时空+大模型

论文笔记:Spatial-Temporal Large Language Model for Traffic Prediction-CSDN博客

论文辅助笔记:ST-LLM-CSDN博客

论文笔记:LSTPrompt: Large Language Models as Zero-Shot Time Series Forecastersby Long-Short-Term Prompt-CSDN博客 202402

只使用prompt 进行时间序列预测的论文

论文笔记:Time-LLM: Time Series Forecasting by Reprogramming Large Language Models-CSDN博客

论文辅助笔记:TimeLLM-CSDN博客

iclr 2024 reviewer 评分 3888

论文笔记:TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting-CSDN博客

论文辅助笔记:TEMPO 之 utils.py-CSDN博客

论文辅助笔记:TEMPO之feature.py-CSDN博客

论文辅助笔记:TEMPO 之 dataset.py-CSDN博客

论文辅助笔记:Temop之modules/utils.py-CSDN博客

论文辅助笔记:Tempo 之 model.py-CSDN博客

论文辅助笔记:Tempo之modules/lora.py-CSDN博客

论文辅助笔记:Tempo之modules/prompt.py-CSDN博客

 iclr 2024 reviewer评分 568
论文笔记:UrbanGPT: Spatio-Temporal Large Language Models-CSDN博客
论文略读:From News to Forecast: Integrating Event Analysis in LLM-Based Time Series Forecasting with Re-CSDN博客 2024 Neurips

提出了一种统一的方法,通过文本提示将新闻和补充信息嵌入到时间序列数据中

使用instruction tuning的方式

论文略读:TESTAM: A TIME-ENHANCED SPATIO-TEMPORAL ATTENTION MODEL WITH MIXTURE OF EXPERTS-CSDN博客 2024 iclr
  • MoE+交通预测

三种图,对应三种专家,采用top1 路由,设计了最差路径规避损失和最佳路径选择损失

论文略读:Retrieval Augmented Time Series Forecasting-CSDN博客

202411 arxiv

  • RAG+时间序列预测
论文笔记: TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large-CSDN博客

    • 提出了TableTime,一种基于表格理解的全新时间序列分类框架
      • 将多变量时间序列分类重新定义为表格理解任务
    论文笔记:CAN LLMS UNDERSTAND TIME SERIES ANOMALIES?-CSDN博客 ICLR 2025 35666

    LLMs 是否真正理解时间序列?从时间序列异常检测而不是时间序列预测的角度研究

    提出7条假设,然后支持/拒绝这些假设,结论是

    • 未发现任何证据表明使用思维链(CoT)提示能提升 LLM 在时间序列分析中的性能

    • LLM 的重复偏置并不能解释其识别周期结构的能力

    • LLM 对时间序列的理解与其算术能力无关

    • 多模态 LLM 在图像输入下比在文本输入下更擅长检测时间序列异常

    • 结论LLM 对异常的理解与人类视觉感知不一致

    • 输入时间序列越长,LLM 的性能越差

    • 架构偏置广泛存在(不同LLM之间的表现和行为差异显著)

    • 在所有文本表示方法中,没有一种方法在所有任务上始终表现最佳

    论文笔记:T2S: High-resolution Time Series Generation with Text-to-Series Diffusion Models-CSDN博客 IJCAI 2025

    文生时间序列

    论文笔记:Can Slow-thinking LLMs Reason Over Time? Empirical Studies in Time Series Forecasting-CSDN博客 202505 arxiv 

    提出了TimeReasoner,将TSF重新表述为一个条件推理任务,系统性地探究LLMs在时序数据中的推理行为

    5 mobility+大模型

    论文笔记:TravelPlanner: A Benchmark for Real-World Planning with Language Agents_旅行规划算法论文-CSDN博客
    论文笔记:Leveraging Language Foundation Models for Human Mobility Forecasting-CSDN博客
    论文笔记:SynMob: Creating High-Fidelity Synthetic GPSTrajectory Dataset for Urban Mobility Analysis-CSDN博客

    为城市移动性分析定制一个高保真合成轨迹数据集,并对其实用性进行彻底评估

    Neurips 2023 dataset

    论文辅助笔记/数据记笔记:SynMob-CSDN博客

    论文笔记 Where Would I Go Next? Large Language Models as Human Mobility Predictor-CSDN博客

    论文辅助笔记:LLM-Mob metric测量-CSDN博客

    论文辅助笔记:LLM-MOB代码解读-CSDN博客

    202308

    • 提出了一个名为LLM-Mob的框架
      • 将流动性数据组织成历史停留和上下文停留,以解释人们移动中的长期和短期依赖性
      • 利用目标停留的时间信息进行时间感知预测
      • 设计了有效的prompt策略来帮助LLM理解流动性数据,最大化它们的推理能力,使预测结果的解释成为可能。
    论文略读 Let’s Speak Trajectories: A Vision To Use NLP Models For Trajectory Analysis Tasks_let鈥檚 speak trajectories: a vision to use nlp mode-CSDN博客

    ACM Transactions on Spatial Algorithms and Systems 2022

    将轨迹任务和NLP任务对齐

    论文笔记 Exploring Large Language Models forHuman Mobility Prediction under Public Events-CSDN博客

    202311 

    • 使用两种类型的数据:过去的事件描述和人类移动流
    • 引入了一个基于LLMs的公共事件下人类移动性预测框架(LLM-MPE)
    基于JIS X0410的日特征编码与逐日生成:提升人类移动轨迹预测精度(2023 humob)

    humob 2023

    Modeling and generating human mobility trajectories using transformer with day encoding

    论文笔记:Large Language Models as Urban Residents:An LLM Agent Framework for Personal Mobility Generati-CSDN博客

    LLM+轨迹生成

    li'yong 大模型(不train直接使用),得到用户在某一天的pattern(通用mobility)和motivation(短期的mobility),生成相应的轨迹

    论文笔记:Beyond Imitation: Generating Human Mobility fromContext-aware Reasoning with Large Language Mo-CSDN博客

    202402 

    • 利用LLMs的推理能力,提出了一种新颖的以推理为基础的流动性生成(MobiGeaR)框架
      • 通过将流动性生成问题重新表述为一个常识推理问题,取代了经典深度学习模型的行为分布模仿框架
      • 通过递归提示LLM生成下一个访问位置
      • 通过考虑个体的人口统计特征、当前位置和时间来推理合理的行为

    论文笔记:Large Language Models as Urban Residents:An LLM Agent Framework for Personal Mobility Generati-CSDN博客

    202402 

    论文笔记:LANGUAGE MODELS REPRESENT SPACE AND TIME-CSDN博客

    ICLR 2024

    大量实验表明模型在早期层就开始构建空间与时间的表示,并在大约中间层趋于稳定,且更大的模型表现优于更小的模型

    论文笔记:Deep Learning for Trajectory Data Management and Mining: A Survey and Beyond-CSDN博客
    论文笔记:Large Language Model for Participatory Urban Planning-CSDN博客
    论文笔记:MobilityGPT: Enhanced Human MobilityModeling with a GPT mode_mobilitygpt: enhanced human mobility modeling with-CSDN博客

    论文笔记:Large Language Models are Zero-Shot Next LocationPredictors-CSDN博客“”

    论文辅助笔记:Large Language Models are Zero-Shot Next LocationPredictors-CSDN博客

    纯prompt  next location

    论文/讲座笔记:Fundamental limitations offoundational forecasting modelsThe need for multimodality and ri_fundamental limitations of foundational forecastin-CSDN博客

    2024 neurips

    TimesNet~TiimeLLM,这些模型都有用么

    论文笔记:UniTraj: Learning a Universal Trajectory Foundation Model from Billion-Scale Worldwide Traces-CSDN博客

    202411 arxiv

    • 构建了首个大规模、高质量、全球分布的轨迹数据集 WorldTrace
    • 提出 UniTraj,一个通用人类轨迹基础模型,结合多重重采样与遮蔽策略,能够建模复杂的时空依赖,并适应不同地区与采样条件下的数据异质性。
    论文笔记:Large Language Models for Next Point-of-Interest Recommendation-CSDN博客 SIGIR 2024

    使用预训练的大语言模型来进行推荐

    论文笔记:Instruction-Tuning Llama-3-8B Excels in City-Scale MobilityPrediction_llama3-8b的论文-CSDN博客

    Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction 辅助笔记:Thread_LlamaInvoker.py-CSDN博客

    Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction辅助笔记:Finetune_Llama3.py-CSDN博客

    将轨迹预测问题重构为一个带有指令的问答任务
    通过 GPT-3.5 和 4 进行实验,发现虽然该问答框架能在零样本情况下得到可接受结果,但仍存在准确性差、API 成本高、数据泄露风险等问题。
    ——>使用 LoRA对 Llama-3-8B 进行了指令微调,仅微调注意力层和投影,提升效率

    论文略读:ST-MoE-BERT: A Spatial-Temporal Mixture-of-ExpertsFramework for Long-Term Cross-City Mobility -CSDN博客 2024 humob 第三名
    论文笔记:Human Mobility Prediction using Day of the Week probability-CSDN博客 humob 第五
    论文笔记:Mobility-LLM: Learning Visiting Intentions and Travel Preferences from Human Mobility Data wit-CSDN博客
    TrajLLM:大语言模型驱动的人类出行模拟新框架

    TrajLLM: A Modular LLM-Enhanced Agent-Based Framework for Realistic Human Trajectory Simulation 2025 WWW

    论文略读:AgentMove: A Large Language Model based Agentic Framework for Zero-shot Next Location Predicti-CSDN博客

    2025 NAACL

    提出了 AgentMove:一个用于广义移动性预测的系统化智能体框架。

    • 首次将基于 LLM 的智能体框架应用于移动性预测领域

    开源LLM驱动的MoBLLM:个体出行预测的基础模型 A Foundational Individual Mobility Prediction Model based on Open-Source Large Language Models 202503 arxiv

    论文笔记:Text-to-TrajVis: Enabling Trajectory Data Visualizations from Natural Language Questions-CSDN博客

    202504 arxiv

    论文提出了 Text-to-TrajVis 任务

    • 用户可以使用自然语言提出轨迹数据可视化请求。Text-to-TrajVis 技术将解析这些查询以提取关键信息,包括区域、时间以及相关的查询参数
    • 随后,自然语言查询将被转化为轨迹可视化语言(Trajectory Visualization Language,TVL),并用于自动生成可视化程序,将查询结果以地图或图表的形式展示。

    论文笔记:Urban Computing in the Era of Large Language Models-CSDN博客 首个专门探讨LLMs在多个城市计算领域应用的综述文章

    论文笔记:Geo-Llama: Leveraging LLMs for Human Mobility Trajectory Generation with Constraints-CSDN博客

    Geollama辅助笔记:fine-tuning.py-CSDN博客

    Geollama 辅助笔记:raw_to_prompt_strings_geo.py-CSDN博客

    202408arxiv

    论文提出了 Geo-Llama,一个基于大语言模型(LLMs)实现的、支持时空约束的人类移动数据生成框架

    • 将轨迹表示为一系列 token,并在 next-token 预测任务上微调大语言模型

    论文笔记:ITINERA: Integrating Spatial Optimization with Large Language Models for Open-domain Urban Iti-CSDN博客

    EMNLP 2024 industry

    定义了开放域城市行程规划(Open-domain Urban Itinerary Planning,OUIP)

    • 根据用户的自然语言请求生成个性化城市行程
    • 然后提出了一个整合空间优化与 LLM 的完整 OUIP 系统:ITINERA

    UniMob:统一轨迹与流量预测的扩散式出行模型

    A Universal Model for Human Mobility Prediction 2025 kdd

    论文提出了一种通用出行预测模型 UniMob,可同时应用于轨迹和流量数据

    论文笔记:BIGCity 统一时空大模型

    BIGCity: A Universal Spatiotemporal Model for Unified Trajectory and Traffic State Data Analysis ICDE 2025

    提出了 BIGCity(Bi-modality unIfied General model for ST data analysis in road network-based City scenarios)——一种面向道路网络场景的双模态统一通用 ST 数据分析模型

    SILO:融合大语言模型的混合语义整合框架用于下一个位置预测 (2025 KDD) SILO: Semantic Integration for Location Prediction with Large Language Models KDD 2025

    论文提出 SILO,将出行数据的结构化特征与 LLM 所擅长的语义空间进行融合
    RHYTHM:用大模型解码人类出行的节律

    Efficient Temporal Tokenization for Mobility Prediction with Large Language Models 202507 arxiv

    6 prompt

    论文笔记:Prompting Large Language Models with Divide-and-Conquer Program forDiscerning Problem Solving-CSDN博客

    对于涉及重复子任务 / 含有欺骗性内容的任务(如段落级别长度的虚假新闻检测),对输入进行拆分可以提升模型对于错误信息的分辨能力

    有一定的理论证明

    arxiv 202402

    论文略读: ALPAGASUS: TRAINING A BETTER ALPACA WITH FEWER DATA-CSDN博客

    ICLR 2024

    论文提出了一种简单有效的数据选择策略,使用ChatGPT自动识别和过滤掉低质量数据
    同时引入了: ALPAGASUS,它是仅对从52k训练数据中过滤出来的9k高质量数据进行微调。
    在多个测试集和受控人类评估上显着优于 GPT-4
    将 7B 的训练时间从 80 分钟减少到 14 分钟。

    论文笔记:TALK LIKE A GRAPH: ENCODING GRAPHS FORLARGE LANGUAGE MODELS-CSDN博客

    ICLR 2024,reviewer评分 6666

    • 对用于LLMs的图结构提示技术进行了广泛研究
    • 为将图编码为文本以供LLMs使用提供了见解和最佳实践
    • 为社区研究LLMs效果提供了新的图基准(GraphQA)
    论文笔记:ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate-CSDN博客

    ICLR 2024 最终评分 55666

    论文采用了多agent辩论框架

    • 利用它们各自的能力和专业知识来提高处理复杂任务的效率和效果
    • 构建了一个名为ChatEval的多agent裁判团队,允许每个agent使用不同的沟通策略进行协作讨论,以制定最终判断
    论文笔记:Chain-of-Table:EVOLVING TABLES IN THE REASONING CHAIN FOR TABLE UNDERSTANDING-CSDN博客

    ICLR 2024 reviewer评分 5566

    提出了CHAIN-OF-TABLE,按步骤进行推理,将逐步表格操作形成一系列表格

    • 定义了一组表格操作,例如添加列、选择行、分组等
    • 提示LLMs进行逐步推理。
    论文笔记:Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering-CSDN博客
    • 不同的LLMs由于训练数据的不同,可能具有不同的内在知识和推理能力
      • ——>多个LLMs协作可能比单个LLM犯错误的可能性要小
      • 检查多个LLMs的一致性有助于减少输出幻觉
    论文笔记:Take a Step Back:Evoking Reasoning via Abstraction in Large Language Models-CSDN博客

    ICLR 2024 reviewer 打分 888

    在进行prompt的时候,先后退一步,从更宏观的角度来看问题,让LLM对问题有一个整体的理解;然后再回到detail上,让模型回答更具体的问题

    论文笔记:Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs-CSDN博客

    不需要微调来激发LLMs置信度表达的方法

    论文笔记:Teaching Large Language Models to Self-Debug-CSDN博客

    ICLR 2024 REVIEWER打分 6666

    提出了一种名为 Self-Debugging 的方法,通过执行生成的代码并基于代码和执行结果生成反馈信息,来引导模型进行调试

    论文笔记:Large Language Models as Analogical Reasoners-CSDN博客

    iclr 2024 reviewer打分5558

    论文提出一种“归纳学习”的提示方法

    • 首先设计prompt让大模型生成出与当前问题比较相关的问题和答案,以辅助问答提出的问题

    论文笔记:UNDERSTANDING PROMPT ENGINEERINGMAY NOT REQUIRE RETHINKING GENERALIZATION-CSDN博客

    ICLR 2024 reviewer评分 6888

    zero-shot prompt 在视觉-语言模型中,已经取得了令人印象深刻的表现

    • 这一成功呈现出一个看似令人惊讶的观察:这些方法相对不太受过拟合的影响
    • 论文试图从理论上解释这一点
    论文笔记:Are Human-generated Demonstrations Necessary for In-context Learning?-CSDN博客

    iclr 2024 reviewer 评分 6668

    >提出了自我反思提示策略(简称 SEC)

    • 不使用手工制作的示例作为演示,而是要求 LLMs 首先自行创建演示,基于这些演示生成最终输出
    • SEC 有效地解决了 ICL 的缺点:它不仅可以节省制作演示的繁重劳动,更重要的是,消除了人工制作提示的不稳定性
    论文略读:Ask, and it shall be given: On the Turing completeness of prompting-CSDN博客

    ICLR 2025 5566

    证明了一个重要结论:提示(prompting)本质上是图灵完备的。也就是说,存在一个固定大小的 Transformer,使得对任何可计算函数,都存在一个对应的提示,使该 Transformer 能够计算该函数的输出

    进一步地,我们还证明:尽管仅使用一个有限大小的 Transformer,它依然能够实现接近于所有无限大小 Transformer 所能达到的复杂度上限

    7 RAG

    论文略读:Self-Knowledge Guided Retrieval Augmentation for Large Language Models-CSDN博客 2023 emnlp findings 设计了名为 SKR (Self-Knowledge Guided Retrieval Augmentation)的框架
    • 对模型本身已知的问题直接生成答案,对未知的问题才调用 RAG 模块
    论文略读:GRAG:GraphRetrieval-Augmented Generation_grag: graph retrieval-augmented generation-CSDN博客 论文提出了GRAG,通过考虑文献之间的引用网络和主题分布将拓扑信息在检索阶段和生成阶段利用起来,提高生成式语言模型的生成质量和图场景下的上下文一致性
    论文笔记:Seven Failure Points When Engineering a Retrieval AugmentedGeneration System-CSDN博客 CAIN 2024

    在工程化一个RAG系统时的七个不足之处

    论文略读:When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric-CSDN博客 2023 ACL 

    一个主要的结论:对于语言模型来说,当问题需要的知识是高频率的热门知识时,检索增强反而会降低模型的性能。——>论文提出只对问到长尾的知识的问题进行检索。

    论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE-CSDN博客 微软24年1月

    • 提出了一个全面的大语言模型流程,以生成高质量的、特定于行业【如农业】的问题和答案
    • 旨在生成地理特定的答案
    • 起点是一个农业数据集,该数据集被输入到三个主要组件:问答生成、检索增强生成(RAG)和微调过程
      • 问答生成根据农业数据集中可用的信息创建问题和答案对
      • RAG使用它作为知识来源
      • 精炼生成的数据,并用其微调数个模型
    论文略读:LLMs+Persona-Plug = Personalized LLMs_llms + persona-plug = personalized llms-CSDN博客
    论文笔记:Retrieval-Augmented Generation forAI-Generated Content: A Survey-CSDN博客 北大202402的RAG综述
    论文略读:The Power of Noise: Redefining Retrieval for RAG Systems-CSDN博客 在RAG中,噪声文档不仅没有对系统性能造成负面影响,反而能够显著提高系统的准确性
    论文略读 RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedba-CSDN博客 ACL 2024 
    • 提出了检索增强迭代自反馈(RA-ISF),通过迭代处理问题,结合自知识模块、文本相关性模块和问题分解模块,以提高模型的问题解决能力

    论文略读:Ward: Provable RAG Dataset Inference via LLM Watermarks-CSDN博客 ICLR 2025 6668
    • 定义黑盒式的RAG数据集推理任务(RAG Dataset Inference,RAG-DI)
    • 构建了一个新颖的数据集,用于对RAG-DI方法进行更真实有效的评估
    • 提出了一种名为 Ward 的新方法,基于 LLM水印(watermarks) 实现RAG-DI

    论文略读:SmartRAG: Jointly Learn RAG-Related Tasks From the Environment Feedback-CSDN博客 ICLR 2025 5568

    之前RAG的模块都是单独训练的——>论文认为这些模块应该联合优化

    设计了一个名为 SmartRAG 的特定流程,该流程包括一个策略网络(policy network)和一个检索器(retriever)

    使用强化学习算法对整个系统进行联合优化,旨在鼓励系统在最小化检索成本的同时实现最优性能

    论文略读:GINGER: Grounded Information Nugget-Based Generation of Responses-CSDN博客 SIGIR 2025

    论文提出了一个模块化流水线:GINGER(Grounded Information Nugget-Based GEneration of Response)
    与现有 RAG 方法相比,GINGER 的主要创新在于它基于“信息颗粒”(information nuggets)运作,后者是最小的相关信息单元

    论文略读:Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection-CSDN博客 202501 arxiv

    提出了一种新颖的 Self-Selection RAG 框架,其核心思想是:让 LLM 自己评估和选择更准确的答案。

    首先,模型基于内部知识生成一个 LLM 答案及其推理过程;

    然后,使用检索模块获取外部相关文本,输入 LLM 并生成 RAG 答案及其解释

    接着,我们再向 LLM 输入:原始查询 + LLM 答案及解释 + RAG 答案及解释,让模型从两者中选择更正确的一个

    提出了一个优化方法Self-Selection-RGP,利用 直接偏好优化(Direct Preference Optimization, DPO) 技术,对 LLM 进行微调

    论文略读:HOH:ADynamicBenchmark for Evaluating the Impact of Outdated Information on Retrieval-Augmented-CSDN博客 202503 arxiv

    论文提出 HOH(How Outdated information Harms RAG),这是首个用于评估 RAG 抵抗过时信息能力的大规模基准测试集。

    8 finetune

    论文略读:Parameter-efficient transfer learning for NLP-CSDN博客

    ICML 2019

    增加了两个Adapter结构,分别是多头注意力的投影之后和第二个feed-forward层之后
    在训练时,固定住原来预训练模型的参数不变,只对新增的 Adapter 结构和 Layer Norm 层进行微调,从而保证了训练的高效性。
    每当出现新的下游任务,通过添加新的Adapter模块来产生一个易于扩展的下游模型,从而避免全量微调与灾难性遗忘的问题。

    论文略读:AdapterDrop: On the Efficiency of Adapters in Transformers-CSDN博客

    EMNLP 2020

    • 论文对Adapter的计算效率进行分析,发现’
      • 与全量微调相比,Adapter在训练时快60%,在推理时慢4%-6%。
    论文略读:BitFit: Simple Parameter-efficient Fine-tuning or Transformer-based Masked Language-models-CSDN博客

    ACL 2021

    对于Transformer模型而言,冻结大部分 transformer-encoder 参数,只更新bias参数跟特定任务的分类层参数

    论文略读:Prefix-Tuning: Optimizing Continuous Prompts for Generation-CSDN博客

    ACL 2021

    • 固定预训练LM,为LM添加可训练,任务特定的前缀
      • 这样就可以为不同任务保存不同的前缀
      • 这种前缀可以看成连续可微的soft prompt,相比于离散的token,更好优化,效果更好
    • 训练的时候只需要更新prefix部分的参数,固定LM部分的参数即可
    论文略读:UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning-CSDN博客

    LoRA+Prefix Tuning+Adapter+门控

    论文略读; AdapterFusion:Non-Destructive Task Composition for Transfer Learning-CSDN博客

    EACL 2021

    在 Adapter 的基础上进行优化

    • 将学习过程分为两阶段来提升下游任务表现
      • 知识提取阶段
      • 知识组合阶段
    论文略读:MOELoRA- An MOE-based Parameter Efficient Fine-Tuning Method for Multi-task Medical Application-CSDN博客

    202310 arxiv

    MoE+LoRA

    论文笔记:GEOLLM: EXTRACTING GEOSPATIALKNOWLEDGE FROM LARGE LANGUAGE MODELS_geollm-base-CSDN博客

    ICLR 2024 reviewer 评分 35668

    介绍了GeoLLM,一种新颖的方法

    • 通过对LLM进行微调,利用构建的提示与OpenStreetMap的辅助地图数据,有效提取LLM中包含的丰富地理空间知识
    • 通过论文展示的提示策略,可以精确定位一个位置,并为LLM提供足够的空间上下文信息,从而使其能够访问并利用其广泛的地理空间知识
    • 在提示中包括来自附近位置的信息,可以将GPT-3.5的性能提高3.3倍,相比仅提供目标位置的坐标
    Knowledge Card: Filling LLMs‘ Knowledge Gaps with Plug-in Specialized Language Models-CSDN博客

    ICLR 2024 (oral) reviewer评分 888

    提出了KNOWLEDGE CARD
    通过整合更小但专业化的语言模型,为通用型LLMs赋予模块化和协作源的知识
    越来越多强大的LLMs API已经发布,但是他们不直接可访问,并且训练或调整成本过高
    ——>KNOWLEDGE CARD专注于增强黑盒LLMs以丰富其知识能力

                            
    原文链接:https://blog.csdn.net/qq_40206371/article/details/137459686

    论文笔记:NEFTune: Noisy Embeddings Improve Instruction Finetuning-CSDN博客

    iclr 2024 reviewer 评分 5666

    在finetune过程的词向量中引入一些均匀分布的噪声即可明显地提升模型的表现

    论文略读:LoRA Learns Less and Forgets Less-CSDN博客 LORA相比于全参数训练,学的少,但忘的也少
    论文笔记:LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models-CSDN博客

    iclr 2024 reviewer 评分 568

    论文提出了LayoutNUWA,这是第一个将布局生成视为代码生成任务的模型,以增强语义信息并利用大型语言模型(LLMs)的隐藏布局专长。
    开发了一种代码指令调整(CIT)方法,包括三个相互连接的模块:
    1)代码初始化(CI)模块量化数值条件并将其初始化为带有策略性放置的掩码的HTML代码;
    2)代码完成(CC)模块利用LLMs的格式化知识填补HTML代码中的掩码部分;
    3)代码渲染(CR)模块将完成的代码转换为最终的布局输出,确保一个高度可解释和透明的布局生成过程,直接将代码映射到可视化布局。

    论文略读:RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs-CSDN博客 2024 Neurips
     
    • 在推理阶段,LLM首先对检索到的上下文进行重新排序,然后基于精炼后的前k(例如5个)生成答案

    论文略读: To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Mode-CSDN博客

    ICML 2024

    • 作者提出了一个新的观点:每一个被遗忘的文本序列都应根据其在 LLM 中的“记忆程度”来采取不同的遗忘策略。
      • 换句话说,不应采用“一刀切”的统一方法来清除所有序列,而应根据某个序列在模型中的记忆强度,决定其具体的遗忘方式。

    Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generat-CSDN博客

    iclr 2025  5688

    • RAG中存在数据存储泄露的风险
      • 通过提示注入(prompt injection)轻松地从基于指令微调的 RAG 系统的数据存储中逐字提取文本数据
      • 进一步发现,通过消除位置偏置(position bias)策略可以显著缓解该类漏洞

    论文略读: CATASTROPHIC FAILURE OF LLM UNLEARNING VIA QUANTIZATION-CSDN博客

    ICLR 2025

    • 论文发现:模型中被“遗忘”的信息,在量化后竟然可以被部分恢复!

      • 这说明很多遗忘方法并非真正删除了目标知识,而是以高精度格式“藏”在了参数中

    论文略读:MSPLoRA: A Multi-Scale Pyramid Low-Rank Adaptation for Efficient Model Fine-Tuning-CSDN博客

    202502 arxiv

    论文提出MSPLoRA(多尺度金字塔 LoRA), 构建了一个多尺度的 LoRA 结构,旨在解耦全局、中层和细粒度信息

    论文略读: RASA: RANK-SHARING LOW-RANK ADAPTATION-CSDN博客

    ICLR 2025

     LoRA 参数中存在冗余性

    论文提出了 Rank-Sharing Low-Rank Adaptation(RaSA),一种通过在层间部分共享秩来提升 LoRA 表达能力的方法

    9 安全&隐私&遗忘

    论文笔记:GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher-CSDN博客

    • 输入转换为密码,同时附上提示,
    • 将加密输入喂给LLM
    • LLM输出加密的输出
    • 加密的输出通过解密器解密

    ——>这样的步骤成功地绕过了GPT-4的安全对齐【可以回答一些反人类的问题,这些问题如果明文问的话,GPT-4会拒绝回答】

    论文笔记:When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models-CSDN博客

    弱智吧benchmark

    • ——>测评 LLM 是否能够理解可能包含误导性、错误前提、故意歧义等的狡猾问题(Cunning Questions)
    论文略读:Towards Safer Large Language Models through Machine Unlearning-CSDN博客

    ACL 2024

    选择性知识否定去学习方法
    旨在移除有害知识,同时最大程度保留模型在正常提示下的功能表现

    论文略读: To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Mode-CSDN博客

    ICML 2024

    每一个被遗忘的文本序列都应根据其在 LLM 中的“记忆程度”来采取不同的遗忘策略。

    • 换句话说,不应采用“一刀切”的统一方法来清除所有序列,而应根据某个序列在模型中的记忆强度,决定其具体的遗忘方式。

    • 作者构建了一个对抗攻击方法,专门用于检验当前 SOTA 遗忘算法是否真的实现了隐私保护;

      • 实验显示:当前主流方法如果没有考虑“记忆程度差异”,在隐私方面是不可靠的,仍然可能泄露训练数据。

    论文略读:Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models-CSDN博客

    2024 neurips

    对齐后的 LLM 在微调过程中具有意想不到的脆弱性 ——即使只使用极少量的恶意数据,甚至是完全良性的微调数据,也可能大幅削弱其原本的安全防护能力

    为了解决这种安全性退化的问题,本文提出了 Safe LoRA ——一个对原始 LoRA 实现的仅需一行代码的补丁,可以显著增强 LLM 在微调过程中的安全鲁棒性。

    论文笔记:Detecting Pretraining Data from Large Language Models-CSDN博客

    iclr 2024 reviewer评分 5688

    提出了一个基准 WikiMIA和一种预训练数据检测方法Min-K% Prob

    论文略读:Case-Based or Rule-Based: How Do Transformers Do the Math?-CSDN博客

    ICML 2024

    大模型是基于规则还是基于样例 推理数学呢?

    论文略读:WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models-CSDN博客

    neurips 2024

    提出了一种名为 WISE 的方法,用于弥合长期记忆与工作记忆之间的差距
    在 WISE 中,我们设计了一种双参数记忆机制(dual parametric memory scheme),包括:

    一份用于存储预训练知识的主记忆(main memory);

    一份专门用于存储编辑知识的辅助记忆(side memory)。

    论文笔记:Teach LLMs to Phish: Stealing Private Information from Language Models-CSDN博客

    iclr 2024 reviewer 评分 588

    • 提出了一种“神经网络钓鱼攻击”
      • 一种新的针对在敏感用户数据上训练或finetune的LLMs的攻击向量
      • 攻击者将看似无害的投毒数据插入到模型的训练数据集中,以“教会LLMs进行钓鱼”,即诱导模型记住他人的个人身份信息,从而使对手能够通过训练数据提取攻击轻松提取这些秘密数据

    论文笔记:Time Travel in LLMs: Tracing Data Contamination in Large Language Models-CSDN博客

    iclr 2024 spotlight reviewer评分 688

    论文提出了两种启发式方法来估计整个数据集分区是否受污染
    第一种启发式方法认为,如果在引导指令下生成的部分与参考实例之间的平均重叠得分在统计上显著高于使用不包括数据集和分区名称的“通用指令”测得的得分,则该分区很可能受污染
    第二种启发式方法是,如果基于GPT-4的分类器通过少量示例的in-context learning,至少标记一个生成的部分与参考实例精确匹配,或至少两个生成的部分为近精确匹配,则标记该分区为受污染

     

    论文略读:FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!-CSDN博客

    iclr oral

    reviewer 打分 66610

    论文发现:通过仅用少量对抗性设计的训练示例进行微调,可以破坏LLMs的安全对齐
    通过在OpenAI的API上仅用10个此类示例进行微调,成本不到0.20美元,就破解了GPT-3.5 Turbo的安全防护,使模型几乎可以响应任何有害指令
    论文还揭示了,即使没有恶意意图,仅仅使用良性和常用的数据集进行微调也可能无意中降低LLMs的安全对齐,尽管程度较小

    论文略读:Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Att-CSDN博客

    iclr 2024 spotlight reviewer 评分 6888

    接从模型权重中删除敏感信息的任务

    论文略读: Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probab_fast-detectgpt efficient zero-shot detection of ma-CSDN博客

    ICLR 2024

    人类和机器在给定上下文的情况下选择词汇存在明显的差异

    • 人类的选择比较多样,而机器更倾向于选择具有更高模型概率的词汇

    论文略读:The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Language Models-CSDN博客
    论文笔记:PRIVACY ISSUES IN LARGE LANGUAGE MODELS: A SURVEY-CSDN博客 大模型隐私综述
    论文略读:Learning and Forgetting Unsafe Examples in Large Language Models-CSDN博客 然对齐的LLMs可以轻松学习这些不安全内容,但当随后在更安全的内容上进行微调时,它们相对于其他示例更容易遗忘这些内容
    论文略读:Large Language Models Relearn Removed Concepts-CSDN博客 模型可以通过将高级概念重新定位到较早的层,并将修剪的概念重新分配给具有相似语义的激活神经元,从而在修剪后迅速恢复性能
    论文略读:Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore-CSDN博客

    人类在写作时比语言模型更容易犯语法错误

    论文略读:PEARL: Towards Permutation-Resilient LLMs-CSDN博客

    ICLR 2025 3688

    上下文学习(In-context Learning, ICL)对演示样本的排列顺序极为敏感

    仅通过打乱演示样本的顺序,就能在 LLaMA-3 上实现近 80% 的攻击成功率

    为应对这一问题,作者提出了Permutation-resilient learning(PEARL),一种基于**分布式鲁棒优化(DRO)**的新颖训练框架,旨在使模型对最不利的输入排列也能保持良好性能。

    论文略读:Mitigating Memorization in Language Models-CSDN博客

     ICLR 2025 spotlight 688

    系统地探讨了缓解语言模型记忆行为的方法,通过实验证明:

    • 基于正则项的方法:效果差、训练慢,对缓解记忆无显著作用;

    • 基于微调的方法:效果显著,但训练成本高,尤其是在保持原任务准确率方面代价较大;

    • 基于反记忆unlearning的方法:效果最佳,既高效又能精确定位并移除模型权重中记忆的信息,避免泄露。

    论文略读:MUSE: Machine Unlearning Six-Way Evaluation for Language Models-CSDN博客

    ICLR 2025 56668

    提出了 MUSE ——一个全面的机器遗忘评估基准(Machine Unlearning Evaluation Benchmark

    论文略读:Does Refusal Training in LLMs Generalize to the Past Tense?-CSDN博客

    ICLR 2025 1688

    仅仅将一个有害请求改写为过去时(例如,将“How to make a Molotov cocktail?”改为“How did people make a Molotov cocktail?”)通常就足以破解许多最先进的 LLM。

    论文略读:Unlearning or Obfuscating? Jogging the Memory of Unlearned LLMs via Benign Relearning-CSDN博客

    ICLR2025 5688

    仅凭一小部分可能与目标知识仅松散相关的数据,攻击者就可以“唤醒”被遗忘模型的记忆,逆转遗忘的效果

    当前主流的近似遗忘方法本质上仅是对模型输出的抑制,而未能真正清除 LLM 中的目标知识表示

    论文略读:PEARL: Towards Permutation-Resilient LLMs-CSDN博客

    ICLR 2025 3688

    上下文学习(In-context Learning, ICL)对演示样本的排列顺序极为敏感

    这一脆弱性可被利用来设计一种自然但难以被模型提供者察觉的攻击方式——仅通过打乱演示样本的顺序,就能在 LLaMA-3 上实现近 80% 的攻击成功率

    作者提出了Permutation-resilient learning(PEARL),一种基于**分布式鲁棒优化(DRO)**的新颖训练框架,旨在使模型对最不利的输入排列也能保持良好性能。

    论文略读:Anticipate & Act : Integrating LLMs and Classical Planning forEfficient Task Execution in Hous-CSDN博客

    202502 arxiv

    H1: LLM 的隐藏表示中包含一个稳定且可测量的信号,能够指示模型当前处于“安全态”或“越狱态”。
    H2: 通过将激活映射到一个最大化状态分离的低维空间中,可以识别出与“安全态”与“越狱态”相关的潜在子空间。
    H3: 通过提取这些潜在子空间之间的差分向量(perturbation vector),我们可以进行有针对性的扰动(即因果干预),从而诱导状态转变。

    论文略读:Adversarial Perturbations Cannot Reliably Protect Artists From Generative AI-CSDN博客

    ICLR 2025 spotlight 6888

    随着图像生成模型不断进步,能够高度模仿艺术家独特风格的能力也越来越强

    作为应对,一些防护工具应运而生,这些工具在艺术家上传的作品中嵌入细微的对抗扰动,以防止风格被模仿

    然而,在本研究中,论文评估了几种主流风格保护工具的实际效果,并发现它们只是带来了虚假的安全感

    论文略读:REEF: Representation Encoding Fingerprints for Large Language Models-CSDN博客

    ICLR 2025 ORAL

    提出了一种无需训练的识别方法 REEF,从 LLM 特征表示的角度出发,用于判断可疑模型与被侵权模型之间的关系。

    论文略读:HOW MUCH OF MYDATASET DID YOU USE? QUANTITATIVE DATA USAGE INFERENCE IN MACHINE LEARNING-CSDN博客

    ICLR 2025

    “我的数据在多大程度上被用于训练某个机器学习模型?”这是数据所有者在评估其数据是否被未经授权使用时面临的一个关键问题。


    已有研究往往错误地将该问题视为一个二元判定问题——即判断数据是否**“全部”或“一部分”被使用(all-or-none / any-or-none)——这种方法在面对现实中非二元的数据使用风险时非常脆弱。


    _——>论文提出了一种细粒度分析方法,称为 数据集使用基数推断(Dataset Usage Cardinality Inference, DUCI),它能够估算出数据被使用的实际比例。

    论文略读:Bypassing Safety Guardrails in LLMs Using Humor-CSDN博客

    202504 arxiv

    • 论文 聚焦于使用幽默进行单轮越狱
      • 利用 LLM 的幽默能力来突破这些安全机制

    10 benchmark

    论文笔记/数据集笔记:E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning-CSDN博客

    ACL 2022

    • 提出了数据集E-KAR
      • 首个可解释的知识密集型类比推理数据集
        • 由 1,655 个(中文)和 1,251 个(英文)来自中国公务员考试的问题组成
        • 并提出了类比推理问题的两个基准任务,用于教会和验证模型学习类比的能力
    论文略读:MathBench: Evaluating the Theory and Application Proficiency of LLMswith a Hierarchical Mathem_mathbench数据集 中文-CSDN博客

    ACL 2024 findings

    数学benchmark,涵盖从小学、初中、高中、大学不同难度,从基础算术题到高阶微积分、统计学、概率论等丰富类别的数学题目

    论文略读:MathScale: Scaling Instruction Tuning for Mathematical Reasoning-CSDN博客
    • 本文提出了一种名为MathScale的概念简单且可扩展的方法,来生成高质量数学推理数据集
    • 与此同时,论文构建了MWPBENCH
      • 包含十个数据集的数学文字问题(Math Word Problems)基准测试集
      • 涵盖了从小学到大学以及竞赛级别的数学问题
    论文笔记:Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Healthcare Quer-CSDN博客

    WWW 2024

    • 研究了将大模型应用在医疗查询对话系统中的表现
      • 提出了名为 XLingEval 的新型跨语言评测框架,以及名为XLingHealth的医疗查询跨语言数据集
    论文笔记:SmartPlay : A Benchmark for LLMs as Intelligent Agents-CSDN博客

    iclr 2024 reviewer评分 5688

    • 引入了 SmartPlay,一种从 6 种不同游戏中提取的基准
      • 衡量LLM作为智能体的能力
    论文略读:SWE-bench: Can Language Models Resolve Real-world Github Issues?-CSDN博客

    iclr 2024 oral reviewer评分 5668

    论文引入了SWE-bench

    • 在现实软件工程环境中评估语言模型的基准测试
    论文笔记:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD-CSDN博客

    iclr 2024 spotlight reviewer 评分 5668

    介绍了(INTHE)WILDCHAT数据集

    • 一个全面的多轮、多语种数据集
    • 包括通过ChatGPT和GPT-4 API支持的聊天机器人服务收集的570,000次完整对话,涵盖超过150万次互动轮次
    论文略读:X-VARS: Introducing Explainability in Football Refereeingwith Multi-Modal Large Language Model_soccernet xfoul-CSDN博客 用于足球犯规视频识别和解释的数据集
    • 包含高质量的视频文本对,超过10k个视频剪辑和22k个问题,由70多名经验丰富的裁判进标注
    • 是体育领域中最大的数据集,涵盖了复杂问题,并且是唯一专注于裁判问题的数据集
    论文略读:Position: AI Evaluation Should Learn from How We Test Humans-CSDN博客

    ICML 2025

    目前AI的benchmark,大体上都准备一个庞大全面的测试集,模型答题后按准确率等各类指标打分

    论文受到心理测量学(Psychometrics)自适应测试的启发,认为:

    • 每道题的重要性和信息价值都不同,可估计出每个题目的难度、区分度、猜测概率等统计特征
    • 系统根据考生表现动态分发题目,更精准评估能力
    论文略读:Pokerbench: Training large language models to become professional poker players-CSDN博客

    2025 AAAI

    提出了 POKERBENCH ——一个用于全面评估 LLM 扑克决策能力的新基准数据集,并附带训练数据

    • POKERBENCH 包含 11,000 个扑克决策场景(spots),涵盖广泛的博弈局面,包括:

    论文略读:Number Cookbook: Number Understanding of Language Models and How to Improve It-CSDN博客 计了一个覆盖广泛的 NUPA数值理解与处理能力(Numerical Understanding and Processing Ability, NUPA) 基准测试集
    论文略读:iNews: A Multimodal Dataset for Modeling Personalized Affective Responses to News-CSDN博客

    arxiv 202503

    论文提出iNews,这是一个全新且大规模的数据集,专为捕捉个体对真实新闻内容情感反应中的主观性而设计

    论文略读:MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses_enzyme co-scientist: harnessing large language mod-CSDN博客

    ICLR 2025 5668

    聚焦于一个核心问题:在仅给定一个研究背景问题的前提下,LLMs是否能够自动发现化学领域中新颖且有效的研究假设?

    构建了一个基准数据集,涵盖了2024年发表在《Nature》或同等级期刊上的51篇化学论文(这些论文均为2024年起在线公开)。每篇论文由化学专业博士生分为三个部分:背景问题、灵感来源、研究假设。

    我们的任务是:仅给定背景问题和一个包含真实灵感来源论文的大型化学文献语料库,并在使用仅训练至2023年的LLM的条件下,尝试“重新发现”每篇论文的研究假设。

    论文略读: Automated explanation of machine learning models of footballing actions in words-CSDN博客

    Journal of Sports Analytics 2025

    llm+可解释预期进球模型

    论文略读: LOST IN TIME: CLOCK AND CALENDAR UNDERSTANDING CHALLENGES IN MULTIMODAL LLMS_lost in time clock and calendar-CSDN博客

     2025 Workshop on Reasoning and Planning for LLMs

    本文探索 MLLMs 处理**时间相关任务(temporal tasks)**的能力
    构建了一个测试集,包含两个子集:
    ClockQA
    包含多种类型的模拟时钟图像(共六类变体,包括罗马数字表盘、无秒针表盘、不同颜色表盘等),并配以与时间相关的问题。
    CalendarQA
    包含过去十年内的日历图像,并配有从简单日期查找(如“新年是星期几?”)到复杂日期推理(如“第153天是哪一天?”)等问题。

                            

    论文略读:SysBench: Can LLMs Follow System Message?-CSDN博客

     iclr 2025 366

    提出了 SysBench,这是一个系统性评估LLMs对系统消息遵循能力的基准,围绕当前模型存在的三大局限进行分析:约束违规指令误判多轮对话不稳定性

    论文略读:Do Large Language Models Truly Understand Geometric Structures?-CSDN博客

    ICLR 2025 668

    提出了 GeomRel 数据集,旨在通过隔离几何问题求解过程中的核心步骤——几何关系识别,更准确地评估 LLM 对几何结构的理解能力。

    论文略读:CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery-CSDN博客

    提出 CS-Bench,这是首个面向计算机科学领域的多语言基准测试集(涵盖英语、中文、法语和德语),专门用于评估 LLMs 在计算机科学中的表现

    论文略读:DAILYDILEMMAS:REVEALINGVALUEPREFERENCES OFLLMSWITHQUANDARIESOFDAILYLIFE-CSDN博客

    ICLR 2025 spotlight  5888

    论文提出 DailyDilemmas,一个包含 1,360 个现实生活中道德困境的数据集。每个困境都提供两个可能的行动选项,并列出了每个选项涉及的相关方与人类价值观。

    数据集笔记:SeekWorld-CSDN博客 提出了一项新任务:地理定位推理(Geolocation Reasoning)
    • 该任务要求模型在感知视觉信息的同时,推理出图像中视觉语义所隐含的高级逻辑关系,从而确定图像的拍摄地点 

    11 大模型压缩/剪枝

    论文笔记:A Simple and Effective Pruning Approach for Large Language Models-CSDN博客

    iclr 2024 reviewer 评分 5668

    引入了一种新颖、简单且有效的剪枝方法,名为Wanda (Pruning by Weights and activations)

    • 在每个输出的基础上,剪枝那些乘以相应输入激活后幅度最小的权重
    • 无需重新训练或权重更新,剪枝后的LLM可以即刻使用

    论文略读:Beware of Calibration Data for Pruning Large Language Models-CSDN博客

    2025 ICLR 3568

    后训练剪枝(post-training pruning)是一种极具前景的方法,它不需要资源密集的迭代训练,仅需少量校准数据(calibration data)即可评估参数的重要性

    很少系统性地探讨校准数据的作用

    论文发现:

    • 少量校准数据已足够

    • 与预训练数据越相似,剪枝后模型性能越好

    论文略读:Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN-CSDN博客

    ICLR 2025 56668

    论文证明:

    • GPT 和 LLaMA 等主流模型所采用的 Pre-LN 会导致模型深层的梯度范数显著减小,从而降低这些层在训练中的有效性
    • 后置层归一化(Post-LN)虽然能在深层保持更大的梯度,但会在浅层遭遇梯度消失的问题

    ——>提出了一种新型归一化方法:Mix-LN,该方法将 Pre-LN 与 Post-LN 结合使用于同一模型中

    • 浅层使用 Post-LN,避免梯度消失;

    • 深层使用 Pre-LN,维持稳定梯度传导;

    论文略读:MIND over Body: Adaptive Thinking using Dynamic Computation-CSDN博客

    ICLR 2025 oral

    论文提出了一种方法,赋予网络自我反省(self-introspection)能力,使其能根据任务的内部表示动态调整所用参数数量,并根据输入的复杂度自适应地调整计算时间

    论文略读:Keyframe-oriented Vision Token Pruning: Enhancing Efficiencyof Large Vision Language Models on-CSDN博客

    202503 arxiv

    论文提出了 KVTP(Keyframe-oriented Vision Token Pruning,关键帧导向视觉 token 剪枝)方法

    采用软选择策略(soft selection),即从那些“相关性较低”的帧中保留少量关键 token,以保留对高层推理至关重要的语义线索

    该方法既有效减少了冗余信息,又保持了时间和上下文结构的一致性
     

    12 大模型+Graph

    论文略读:OpenGraph: Towards Open Graph Foundation Models-CSDN博客
    论文略读:ASurvey of Large Language Models for Graphs_graph2text or graph2token: a perspective of large -CSDN博客
    • 归纳了四种主要的graph+大模型
      • GNNs as Prefix
      • LLMs as Prefix
      • LLMs-Graphs Integration
      • LLMs-Only
    论文略读:Does Graph Prompt Work? A Data Operation Perspective with Theoretical Analysis-CSDN博客

    ICML 2025

    论文从“数据操作”视角理解图提示的理论框架,从数学上系统解释了图提示的工作机制
    论文提出了一个关键概念:“桥接图”(Bridge Graph)
    对于每一个原始图数据,都可以通过某种“数据操作”变成一个新的图,这个新图经过原来的预训练模型处理后,结果就能“神奇地”符合下游任务要求
    图提示,就是学会如何找到这个数据操作

    论文略读:Are Large Language Models In-Context Graph Learners? -CSDN博客

    arxiv 202502

    LLMs 并不擅长在图数据上进行 in-context 学习。即使是最先进的 LLMs,在节点分类任务中的表现也不如 GNN

    GNN 的消息传递机制可以被解释为一种递归的 RAG 步骤,它对每个节点及其图上下文执行查询

        12.1 graph prompt tuning for 推荐系统

        论文笔记:GPT4Rec: Graph Prompt Tuning for Streaming Recommendation-CSDN博客

        SIGIR 2024

        论文笔记:Integrating Large Language Models with Graphical Session-Based Recommendation-CSDN博客

        13 efficient ML

        论文笔记:OneBit: Towards Extremely Low-bit Large Language Models-CSDN博客

        论文提出OneBit 框架,包括全新的 1bit 层结构、基于 SVID 的参数初始化方法和基于量化感知知识蒸馏的知识迁移

        论文笔记:SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning-CSDN博客

        ACL 2024

        • 通过在 PEFT 模块(adapter/LORA)的输入中注入初始残差,减少了 Transformer 模型中的过平滑问题

        论文略读:Not all Layers of LLMs are Necessary during Inference-CSDN博客
        • 这篇论文动态减少激活神经元的数量以加速LLM推理
          • 根据输入实例动态决定推理终止时刻

        动态减少激活神经元的数量以加速LLM推理

        根据输入实例动态决定推理终止时刻

        论文略读:MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning-CSDN博客

        过低的秩会严重限制模型学习和记忆新知识的能力,尤其在需要获取大量领域知识的任务上

        oRA的关键在于使用方阵M取代LoRA的低秩矩阵A和B,以提升rank

        论文略读:LoRA+: Efficient Low Rank Adaptation of Large Models-CSDN博客

        从理论分析了LoRA最优解必然是右矩阵的学习率大于左矩阵的学习率(数量级差距是O(n))

         14 多模态

        论文略读:AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling-CSDN博客

        ACL 2024 

        • 在单一框架内整个多个模态
          • 采用离散表示来统一处理文本、各种模态、图像和音乐
        论文略读:OneChart: Purify the Chart Structural Extraction via One Auxiliary Token-CSDN博客

        • 图表解析模型
        • 对于之前的视觉语言模型,论文认为其有两点不足需要改进:
          需要充分训练一个真正会看 chart 的 vision encoder
          单纯对文本输出算交叉熵损失,并不是最优的(如上图所示,当ground-truth 是 7008 时,模型输出 70.8 和 7007 损失是一样的【都是没分类到正确的内容】,但显然 7007 是相对可以接受的误差)
          ——>Onechart 的做法是引入了一个辅助 decoder,并设计 L1 loss 来进行监督

        论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See-CSDN博客

        2024 10 保持性能的同时显著降低计算复杂度

        论文结论:From Redundancy to Relevance: EnhancingExplainability in Multimodal Large Language Models-CSDN博客

        在浅层与深层中不同token信息流汇聚情况有所区别
        浅层(1-11层)对于图像内容有显著的响应(与提示选项相关的图像区域高亮显示)
        模型在理解提示中的上下文、问题和选项后,能过滤并专注于与提示相关的图像内容
        在深层(12-32),系统token和用户token的信息流汇聚更为明显,而图像token的汇聚则相对较弱,甚至对输出token没有什么贡献
        这些深层可能依赖于浅层收集的信息,并结合LLM的知识,降低了对图像直接关注的依赖。

        论文略读:OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty an-CSDN博客

        2024 CVPR

        多模态大模型在生成幻觉内容时,其自注意力权重上通常具有“过度信赖”的现象

        • 将多模态大模型最后一层的自注意力权重进行可视化,会很容易在模型给出幻觉句子之前看到一个明显的“柱状”特征

          • 可能是多模态大模型在输出较长语句时存在的一种“自动总结”的本能。
        Irony in Emojis: A Comparative Study of Human and LLM Interpretation-CSDN博客

        arxiv 202501

        • 本研究聚焦于以下核心问题:GPT-4o 对讽刺性表情的理解能力与人类相比如何?

          • 论文设计提示语,引导 GPT-4o 评估其在社交媒体中选择特定表情表达讽刺的可能性,并将其回答与人类的理解进行比较

        论文略读:Seeing the Abstract: Translating the Abstract Language for Vision Language Models-CSDN博客

        CVPR 2025

        论文提出了一种全新、无需训练的方法Abstract-to-Concrete Translator(ACT),它可以在现有 VLM 的表示空间中,有效地将抽象导向的语言转化为具体导向语言

        论文略读:SentiFormer: Metadata Enhanced Transformer for Image Sentiment Analysis-CSDN博客

        ICASSP 2025

        论文提出了一种用于图像情感分析的全新元数据增强型 Transformer 方法(SentiFormer)

        • 将多种元数据与图像整合至一个统一框架中

        论文略读:A MULTIMODAL SYMPHONY: INTEGRATING TASTE AND SOUND THROUGH GENERATIVE AI-CSDN博客

        202503 arxiv

        • 某些声音特征会影响人们的味觉感知。例如,低音调的声音常与苦味相关,而高音调则倾向于唤起甜味的联想

        论文构建了一个数据集,强调味觉与音乐之间神经科学和实验心理学的关联知识

        VisEscape:多模态智能体探索与推理能力评测新基准

        VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms 202503 arxiv

        VLM+密室逃脱

        15 幻觉

        论文略读:Detecting and Mitigating Hallucinations in Multilingual Summarisation-CSDN博客

        EMNLP 2023

        论文提出了一种新的评估指标 mFACT,用于衡量非英语摘要的忠实性

        • 论文进一步提出一种简单但有效的方法来减少跨语言迁移中的幻觉现象
          • 在训练过程中,根据每个样本的忠实性分数对其损失进行加权
          • 忠实性越高的样本,对模型学习影响越大,进而鼓励模型生成更真实的摘要内容。

        论文结论:GPTs and Hallucination Why do large language models hallucinate-CSDN博客
        • 当一个主题有普遍共识,并且有大量语言可用于训练模型时,大模型的输出可以反映出该共识观点
        • 在没有足够关于主题的语言示例【晦涩/数据有限】,或者主题有争议,或是对主题没有明确共识的情况下,就有可能生成似是而非的结果(幻觉)
        论文略读:Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Mul-CSDN博客

        ICML 2025

        把视觉 Token 当作补充性证据,在模型推理到遇到遗忘困扰的中间触发层后,通过前馈网络(FFN)让其重新“检索”所需视觉知识(即看两次)

        论文略读:No Free Lunch: Fundamental Limits of Learning Non-Hallucinating Generative Models-CSDN博客

        ICLR 2025 15888

        学习理论的视角出发,构建了一个理论框架,旨在分析非幻觉生成模型的可学习性

        研究表明:仅依赖训练数据,学习出不产生幻觉的模型在统计上是不可能的

        论文略读:REDEEP: DETECTING RETRIEVAL-AUGMENTED HALLUCINATION GENERATION MECHANISTIC INTERPRETABILIT-CSDN博客

        2025 iclr spotlight

        • RAG通过结合外部知识以减少幻觉问题
          • 即使检索到准确的上下文,RAG 模型仍可能在生成过程中产生与检索信息相冲突的“幻觉”输出
             
        • 论文聚焦于幻觉来源,并提出解决方法

        • attention中的复制头有助于在残差流中保留已关注的 token,这对于外部上下文的利用至关重要
        • FFN主要作为Transformer中的知识存储器

        16 moe

        论文略读: Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalize-CSDN博客

        RecSys  2020

        • 论文提出了一种新颖的 MTL 模型——Progressive Layered Extraction(PLE),通过改进共享网络结构以更好地利用先验知识,从而捕捉复杂的任务相关性
          • PLE 显式区分了共享专家与任务专属专家,减少了共性知识与特定任务知识之间的有害干扰
        论文略读:GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding -CSDN博客

        2021 ICLR

        第一个将 MoE 的思想拓展到 Transformer 上的工作

        论文略读:On the Embedding Collapse When Scaling Up Recommendation Models-CSDN博客
        • 如果只是简单地将每个特征的嵌入表征的长度拉长,虽然模型的参数量会线性增大,但是由于大部分特征的有效维度很小,导致模型效果提升幅度不大,甚至有所下降
        • ——>提出了多嵌入范式 (Multi-Embedding Paradigm)
          • 为所有的特征 ID 学习多套嵌入表征,并且基于每套嵌入表征学习独立的专家网络
          • 最后基于MoE 输出最终预估值

        论文笔记:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models-CSDN博客

        • 细粒度专家 分割
          将每个专家 FFN 分割为 m 个更小的专家,将 FFN 的中间隐藏维度减少到原来的 1/m
          为了保持相同的计算成本,激活的专家数量也增加到 mK
          共享专家隔离
          隔离一部分专家作为共享专家 ,这些共享专家始终处于激活状态
          à 捕获和整合跨上下文的 共同知识
        论文笔记:TIME-MOE: BILLION-SCALE TIME SERIES FOUNDATION MODELS WITH MIXTURE OF EXPERTS_timer moe-CSDN博客

        提出了TIME-MOE,一个可扩展的统一架构,用于预训练更大规模、更强能力的预测基础模型,同时降低计算成本
        由一系列仅包含解码器的Transformer模型组成,采用专家混合架构,以自回归方式运行,支持任何预测范围,并可处理最长达4096的上下文长度
        首次将时间序列基础模型扩展至24亿参数规模

        论文略读:MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels-CSDN博客 202401 arxiv
        • 提出了一种新的模型结构MoE-LLaVA与训练策略MoE-tuning,可构建具有大量参数但计算成本恒定的稀疏模型
        论文略:ACloser Look into Mixture-of-Experts in Large Language Models-CSDN博客
          • 202406 arxiv
          • Mixtral可能包含具有独特属性的专家
          • DeepSeek和Grok的专家权重矩阵的相似性通常低于Mixtral(DeepSeek和Grok专家的矩阵级相似性通常接近零,而Mixtral专家的相似性平均约为0.3)
          • 如图1中的Mixtral热力图所示,不同专家的权重在较深层次的相似性较低(越深的层次,专家的多元性越大)
          • Wup、Wdown和 Wgate在其相似性热力图中共享相似的模式
          论文笔记 LLaMA-MoE:Building Mixture-of-Experts from LLaMAwith Continual Pre-training_llama moe论文-CSDN博客 2024 ACL
          • 从现有的LLM中建立稀疏的MoE模型
            • 将transformer解码器块中的前馈网络(FFN)转换为专家网络
            • 然后继续训练转换后的LLaMA-MoE-v1模型

          论文笔记:PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning-CSDN博客 202407 arxiv LM在持续学习过程中容易出现灾难性遗忘
          • ——>提出了一种渐进的非对称专家混合架构(PMoE),兼顾了持续学习中的知识保留和适应新知识

          论文笔记:MoEJetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Task_moe jetpack: from dense checkpoints to adaptive mi-CSDN博客 Neurips 2024 提出了MoE Jetpack,一种将预训练密集检查点微调到MoE模型中的新方法
          • 利用密集预训练的沉没成本来增强MoE模型的性能,并加速收敛过程

          论文略读:Multimodal Instruction Tuning with Conditional Mixture of LoRA-CSDN博客 ACL 2024
          • 论文在LoRA阶段使用MOE

          论文略读:Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large _klotski: efficient mixture-of-expert inference via-CSDN博客 ACL 2024 提出了expert pruning,省空间
          • MoE 有很多专家,就算推理阶段不用,部署的时候也需要部署下来,还是要占空间的
          • ——>在部署前剪枝
          论文略读:Harder Tasks Need More Experts: Dynamic Routing in MoE Models-CSDN博客  ACL 2024
          • 基于阈值 threshold 的路由方法,让每个 token 可以动态选择 1 到 多个专家
            • 人工设置一个超参数阈值,t
            • 对于每个 token, 把所有专家按分数从大到小排列,然后选择排名前几的专家,使这些专家分数总和大于 t

          论文辅助笔记:Harder Tasks Need More Experts: Dynamic Routing in MoE Models(infer.py)-CSDN博客

          论文辅助笔记:Harder Tasks Need More Experts: Dynamic Routing in MoE Models (modelling_moe.py)7-CSDN博客

          论文笔记:Interpretable Cascading Mixture-of-Experts for Urban Traffic Congestion Prediction-CSDN博客 2024 KDD
          • 首次将MoE架构应用于行业级的拥堵预测应用
            • 提出了一种自适应图学习专家(MAGLs)模块(上游图专家、下游图专家、全局图专家),并通过稀疏门控机制选择性地激活
            • 为了增强模型对潜在数据缺失和噪声的鲁棒性,引入了两个专门的专家,分别关注捕捉稳定趋势和周期性模式
            • 采用有序回归策略
              • 缓解由于专家的归纳偏差和固有的类别不平衡问题而导致的专家过度自信,促进专家之间的有益合作

          论文笔记:Multi-Head Mixture-of-Experts-CSDN博客 2024 neurips 提出了多头混合专家(MH-MoE)
          • 采用了多头机制,可将每个输入 token 分成多个子 token
          • 然后将这些子 token 分配给一组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式

          论文笔记:Autonomy-of-Experts Model-CSDN博客 202501 arxiv 论文提出了一种新的MoE范式——专家自治(AoE)
          • 这一设计基于专家能够意识到其处理输入的能力,并且这种意识反映在其内部激活的规模上
          • AoE允许专家决定是否自主处理输入

          论文略读:Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts-CSDN博客 TPAMI 2025 多模态大模型+MOE
          论文笔记: MOE++: ACCELERATING MIXTURE-OF-EXPERTS METHODS WITH ZERO-COMPUTATION EXPERTS-CSDN博客

          MOE++引入了“零计算专家”,这个机制的引入使得MOE++

          MoE++还让每个Token在选择专家时参考前一层的路由路径

          论文略读:Graph Mixture of Experts and Memory-augmented Routers for Multivariate Time Series Anomaly Dete_mixture of graph experts for cross-subject emotion-CSDN博客 AAAI 2025
          • 提出了 Graph-MoE,用于多变量时间序列 异常检测
            • 现有方法中常见的一个局限是 :在整个图上,GNN 本质上是“同质”的,即强制所有节点共享相同的聚合机制,而不考虑它们节点特征或邻域的差异
            • 但实际上,有些节点可能青睐于更远距离的信息聚合,有些则青睐于更近邻居的信息聚合

          论文略读 Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-E-CSDN博客 阿里 20250205
          • 每个设备在处理数据时,会记录自己选择了哪些专家以及选择的频率
          • 在每次梯度更新之前,所有设备需要把自己记录的专家选择情况汇总起来(通信)
          • 通过汇总所有设备的专家选择情况,可以计算一个全局的负载均衡损失

          论文略读 ST-MoE: Designing Stableand Transferable Sparse Expert Models-CSDN博客 稳定的MOE
          论文略读:ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing-CSDN博客 iclr 2025 5688

          传统的 TopK 路由器由于以不连续、不可微的方式进行训练,限制了其性能和可扩展性

          提出了 ReMoE —— 一种完全可微分的 MoE 架构,它使用 ReLU 替代常规的 TopK+Softmax 路由方式

          论文略读:Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization-CSDN博客 iclr 2025 5668

          Drop-Upcycling 结合了两种看似矛盾的MOE参数初始化方法:一方面利用预训练稠密模型的知识,另一方面在统计上重新初始化部分权重

          论文略读:Theory on Mixture-of-Experts in Continual Learning-CSDN博客 iclr 2025 spotlight 688
          • MoE近年来被用于环节持续学习中的灾难性遗忘,但现有研究缺乏理论分析
          • 论文从过参数化线性回归任务的视角出发,提供了MoE在持续学习中作用的理论刻画
          论文略读: LAYERWISE RECURRENT ROUTER FOR MIXTURE-OF-EXPERTS-CSDN博客 ICLR 2025 3668

          在MoE中,路由器(router) 是核心组件,但目前的做法是在各层独立地对token进行分配,未能利用历史路由信息,这可能导致次优的token–专家匹配,进而引发参数利用效率低下的问题。

          ——>提出了一种新的架构:用于MoE的层间循环路由器

                  RMoE引入了门控循环单元(GRU),在连续层之间建立路由决策的依赖关系

          论文略读:MoLEx: Mixture of Layer Experts for Fine-tuning with Sparse Upcycling_mix of layer-CSDN博客 ICLR 2025 568

          将预训练模型的不同层本身作为“专家”进行条件性组合与计算

          • MoLEx 在模型的每一层引入专家混合机制;

          • 在微调过程中,模型根据输入条件选择性地激活不同层的组合,从而提取更丰富的结构化信息;

          • 不同层之间的交互为模型提供了更全面的语言知识,使其在下游任务中能做出更有信息支持的决策。

          论文略读:Mixture-of-Agents Enhances Large Language Model Capabilities-CSDN博客 iclr 2025 spotlight 6888

          采用 Mixture-of-Agents(MoA)机制来汇聚多个 LLM 的优势

          论文略读:NetMoE: Accelerating MoE Training through Dynamic Sample Placement-CSDN博客 2025 ICLR spotlight 66888
          • 论文从一个此前未被充分探索的视角——训练样本角度出发,尝试加速 MoE 模型中的 All-to-All 通信。
            • 通过动态重排训练样本的分布位置,以最小化 All-to-All 通信代价
          论文略读:Universal Model Routing for Efficient LLM Inference-CSDN博客 arxiv 202502

          将每个 LLM 表示为一个特征向量,其依据是该模型对一组代表性提示(prompts)的预测准确性。
          基于这一表征方式,本文提出了两种有效的模型路由策略:

          基于聚类的路由(Cluster-based Routing);

          基于学习的聚类映射(Learned Cluster Map)。

          这些方法可以使已训练的路由器在无需重训的情况下直接使用新模型

           

          17 text embedding

          论文略读:Matryoshka Representation Learning-CSDN博客

          2022 Neurips

          论文笔记:Enhancing Sentence Embeddings in Generative Language Models-CSDN博客
          • 2024 ICIC
          • 设计了两种简单但有效的提示工程方法:假设思维链(Pretended Chain of Thought, CoT)和知识增强(Knowledge Enhancement),以改善生成模型在直接推理设置下的句子表示能力
          论文笔记:Scaling Sentence Embeddings with Large Language Models-CSDN博客

          2024 ACL findings

          • 如何使用LLMs表示句子嵌入,并且提示工程是否有效?
            • 设计了一套prompt
          • 上下文学习是否能提升句子嵌入的质量?
            • ——>通过添加定义句子和相应的词作为示例进行上下文学习,性能可以进一步提高
          • 将当前对比学习框架融入LLMs后能取得哪些改进?
            • 通过采用对比学习可以进一步提高性能。
          • 当模型参数超过数十亿时,参数规模是否依然有效?

            • 从数百万个参数到数十亿个参数的过渡,能够提高STS任务的表现。

            • 然而,继续扩大参数规模可能不会带来更多的改善。

            • 即使是上下文学习,66B的OPT在STS任务上仍然不如6.7B的OPT

              • 尽管如此,扩大模型规模能提高迁移任务的性能。

              • 具有数十亿参数的LLMs在没有任何微调的情况下,仍展现出强大的性能,甚至达到了最新的状态。

          论文略读:Uncovering Hidden Representations in Language Models_linearity of relation decoding in transformer lang-CSDN博客

          202502 arxiv

          对于下游任务,语言模型的中间层在所有架构和任务中始终优于最后一层

          • 这挑战了使用最后一层表示的传统观点。

          论文笔记:Repetition Improves Language Model Embeddings-CSDN博客

          复制一遍原本文,那么就能够让第二次出现的文本的每个token都能见到原文本所有的内容

          18 推荐

          论文略读:Defining and Supporting Narrative-driven Recommendation-CSDN博客

          sysrec 2017

          • 定义“叙述驱动推荐(Narrative-Driven Recommendation,NDR)”,在该情境下,推荐过程同时由用户的历史交易记录和当前需求的叙述性描述所驱动。
          论文笔记:POINTREC: ATest Collection for Narrative-driven Point of Interest Recommendation-CSDN博客

          SIGIR 2021

          聚焦于一种 POI 推荐情境,其中用户的上下文需求以自然语言明确表达

          • 不提供用户过往交易记录,也不提供任何用户画像信息,除了自然语言描述中明确提及的部分
          论文笔记:Answering POI-Recommendation Questions using TourismReviews-CSDN博客

          2021 CIKM

          QA+POI推荐 benchmark

          论文笔记:Large language model augmented narrative driven recommendations_large language models as narrative-driven recommen-CSDN博客

          RecSys 2023

          • 论文探索如何将传统用于协同过滤推荐器训练的历史用户-物品交互数据集,重新利用于支持 NDR 任务。(NDR任务,叙述驱动推荐)

          论文略读:Image is All You Need: Towards Efficient and EffectiveLarge Language Model-Based Recommender S-CSDN博客

          202303 arxiv 

          为同时解决效率与有效性难题,提出一种新颖方法:使用图像替代冗长文本描述,以图像表达商品,降低 token 占用,同时保留丰富语义信息

          论文笔记:Text Is All You Need: Learning Language Representations for Sequential Recommendation-CSDN博客

          2023 KDD

          论文用自然语言的方式对用户偏好和商品特征进行建模

          • 将商品表示为“句子”(单词序列),从而使用户的商品序列变成句子序列

          论文笔记:MGeo: Multi-Modal Geographic Language Model Pre-Training-CSDN博客

          2023 sigir

          情境地理上下文推荐dataset

          论文笔记:DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based Queries-CSDN博客

          2024 neurips

          提出了一项新任务:面向多层次方面查询的科学文档检索(DORIS-MAE)

          • 让用户能够更自然地用语言表达查询意图,从而增强控制力

          发布了 DORIS-MAE 数据集,涵盖计算机科学领域中的 100 个独特复杂查询,并为每个查询配备了经过排序的相关 CS 文章摘要池
          提出了 Anno-GPT,一个用于统计学上可靠地验证大语言模型标注质量的流程
          实验表明,LLM 所生成的标注在质量上可媲美人工标注,且在时间和成本上均大幅节省

          论文略读:ASurvey on Intent-aware Recommender Systems-CSDN博客 意图感知推荐系统的综述
          论文略读:HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and -CSDN博客

          202409arxiv

          论文略读:LLMEmb:Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation-CSDN博客

          AAAI 2025

          文本特征(如标题)捕捉物品之间语义关系,有希望成为一个无偏的物品嵌入生成器

          论文笔记:SLMRec: Distilling Large Language Models into Small for Sequential Recommendation-CSDN博客

          ICLR 2025 5668

          • 即使仅使用2层的E4SRec2,其性能仍显著优于传统的SASRec
            • 主要原因包括:
              • 更大隐层维度:LLM隐层维度为4096(VS. SASRec的128),增强了表征能力
              • 预训练权重初始化:LLM的预训练参数提供了更优的语义先验
              • 参数高效微调(PEFT):LoRA技术有效平衡了参数更新与计算效率
          • 中间层存在显著冗余
            • 在第8~第24层区间内,性能缓慢提升
            • 8层模型即可逼近24层模型的效果,表明大部分中间层对推荐任务贡献有限

          ——>提出轻量化模型SLMRec(参数量<1B),通过知识蒸馏对齐表征空间,并结合多任务监督信号压缩模型规模

          论文笔记:CoLLM

          tkde CoLLM: Integrating Collaborative Embeddings into Large Language Models for Recommendation

          • 将协同过滤的特征向量和大语言模型的语义向量结合

          论文略读: LANGUAGE REPRESENTATIONS CAN BE WHAT RECOMMENDERS NEED: FINDINGS AND POTENTIALS-CSDN博客

          2025 ICLR oral

          先进的语言模型表征与一个优秀的推荐表征空间同态,并呈现出鲁棒性与可扩展性

          论文略读:HeterRec: Heterogeneous Information Transformer for Scalable Sequential Recommendation-CSDN博客

          SIGIR 2025

          论文提出了一种用于序列推荐的异构信息 Transformer 模型——HeterRec,其设计灵感来源于 LLM 中的 tokenization 技术。

          • 提出了一种新的物品 tokenization 方法,将每个物品视为一个“词”,再将其拆分为由关键异构特征组成的细粒度 token 集合。

          19 LLM+code

          论文略读:OpenRCA: Can Large Language Models Locate the Root Cause of Software Failures?-CSDN博客

          ICLR 2025  5688

          提出 OpenRCA:一个用于评估 LLMs 定位软件故障根因能力的基准数据集和评估框架

          论文略读:CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery-CSDN博客

          iclr 2025 5688

          提出 CS-Bench,这是首个面向计算机科学领域的多语言基准测试集(涵盖英语、中文、法语和德语),专门用于评估 LLMs 在计算机科学中的表现

          20 VLM

          论文略读:SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models-CSDN博客

          ICLR 2025 5566

          出了 SPORTU ——一个专为多层次体育推理任务设计的基准评测集。

          SPORTU 包含两个核心组成部分:

          • SPORTU-text:包含 900 道多项选择题,配有人类标注的解释,侧重考察模型对体育规则理解与战术策略的推理能力。该部分仅使用文本问答(QA)形式,不涉及视觉信息输入;
          • SPORTU-video:包含 1,701 个慢动作视频片段,涵盖 7 种运动项目,共计 12,048 个问答对,评估从基础的运动识别到复杂如犯规判断、规则应用等多层次视觉-文本联合推理能力。
          论文略读:Should VLMs be Pre-trained with Image Data?-CSDN博客

          2025 ICLR 5556

          • 在预训练阶段混合图像与文本数据,有助于模型在视觉-语言任务中取得更好表现,同时还能保持在纯文本任务中的强劲性能;
          • 以 10 亿参数模型为例,若在预训练完成约 80% 时引入视觉 token,相较于完全预训练后再引入图像数据,可带来约 2% 的平均性能提升。
          论文略读:NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization-CSDN博客

          202502 arxiv

          ——>提出 NAVICLUES,一个用于图像地理定位的高质量推理数据集

          灵感源自 GeoGuessr 这款热门游戏,NAVICLUES 收录了来自五位经验丰富的 YouTube 玩家超过 2000 个实例,记录了他们分析图像细节以推断位置的全过程,从而训练视觉语言模型生成类似人类专家的推理过程。

          ——>提出NAVIG,一个结合视觉分析与外部知识进行分析推理的框架

          借助公开地图和专家指南等工具,我们设计了一套流程,能够深入挖掘图像中的细粒度信息,并检索相关资料以进一步提高准确率。

          论文略读:Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models-CSDN博客

          ICLR 2025  6666

          提出了 “可答性对齐(alignment for answerability)”框架,使得 Video-LLMs 能够基于输入视频:

          • 评估问题是否相关

          • 并在问题超出视频内容范围时合理拒答

          论文略读: CITYANCHOR: CITY-SCALE 3D VISUAL GROUNDING WITH MULTI-MODALITY LLMS-CSDN博客

          ICLR 2025 6668

          提出了一种名为 CityAnchor 的三维视觉指定位方法,用于在城市级点云(city-scale point cloud)中定位城市物体

           

          提出了一种多模态大语言模型(LLM)驱动的两阶段方法,包括:

          • 粗定位阶段(Coarse Localization):根据文本描述,在点云投影后的二维地图上定位可能的区域;
          • 细粒度匹配阶段(Fine-Grained Matching):在这些候选区域中进一步精确匹配出与文本描述最相符的目标对象。

          论文略读:Long-Context Autoregressive Video Modeling with Next-Frame Prediction-CSDN博客 提出了长短时上下文建模
          • 采用非对称的 patchify 策略
            • 短时上下文保留原有的 patchify 策略,以保证细粒度交互
            • 长时上下文则进行更为激进的 patchify,减少 token 数量,从而在保证计算效率的同时,维持时序模拟的质量

          论文略读:VLMsasGeoGuessr Masters—Exceptional Performance, Hidden Biases, and Privacy Risks-CSDN博客

          arxiv 202502

          论文对 VLM 在地理信息识别中的能力与偏差进行了系统性研究

          发现,当前 VLM 在以下三个关键方面存在显著偏差

          • 偏向知名城市

          • 不同地区的准确率差异

          • 与发展水平的伪相关性

          21 对齐

          论文略读:Causally Motivated Sycophancy Mitigation for Large Language Models-CSDN博客

          iclr 2025 6666

          不当的将用户偏好纳入大语言模型可能导致“逢迎性”(sycophancy)——即模型为了迎合用户偏好而牺牲输出的正确性

          结构因果模型(Structured Causal Models, SCMs)的视角进行建模与分析。指出,逢迎性的根源在于 LLM 倾向于依赖用户偏好与模型输出之间的虚假相关性(spurious correlations)

          进一步提出一种新方法:CAUSM,旨在通过挖掘关键的**因果特征(causal signature)**来缓解 LLM 的逢迎行为

          论文略读:Personality Alignment of Large Language Models-CSDN博客

          ICLR 2025 558

          当前LLM在对齐时,通常旨在反映普遍的人类价值观与行为模式,但却常常无法捕捉到个体用户的独特特征与偏好。

          ——>本文提出了人格对齐(Personality Alignment)的新概念。该方法旨在使LLM的回答和决策过程能够贴合具体用户或相关群体的个性化偏好

          论文略读:M3PT: A Multi-Modal Model for POI Tagging-CSDN博客

          2023 KDD

          之前的POI 标签方法忽视了 POI 图像的重要性,较少融合 POI 的文本和图像特征,导致标签预测性能不理想

          22 LLM+数学

          论文略读:Can LLMs Solve Longer Math Word Problems Better?-CSDN博客

          ICLR 2025 3556

          首次提出并系统性研究了数学推理中的上下文长度泛化能力——即模型在面对冗长叙述下仍能解决数学问题的能力。

          构建了一个新的数据集:扩展版小学数学题(Extended Grade-School Math, E-GSM),该数据集包含了带有冗长叙述背景的数学文字题。

          同时,提出了两个新的评估指标,用于衡量LLMs在应对这类问题时的有效性与鲁棒性

          23 长上下文

          论文略读:Why Does the Effective Context Length of LLMs Fall Short?-CSDN博客

          iclr 2025 6668

          开源LLMs的有效上下文长度常常远低于其训练长度,通常不超过一半

          本研究将这一局限归因于:在预训练与后训练阶段,模型内部形成了相对位置的左偏频率分布,这一分布妨碍了模型有效捕捉远距离信息的能力。

          ——>提出了一种新方法:Shifted Rotray Position Embedding(STRING),通过在推理阶段对已训练好的位置进行平移,以覆盖原本无效的位置,从而在不增加额外训练成本的前提下,提升模型在长上下文中的表现能力。

          24 效率

          论文略读: CUT YOUR LOSSES IN LARGE-VOCABULARY LANGUAGE MODELS-CSDN博客

          ICLR 2025 oral

          随着语言模型(LLMs)的规模不断增长,其词表规模也随之扩大

          • 这导致训练过程中内存占用极度向一个层次倾斜:即交叉熵损失计算中的最后一层
          • 在计算交叉熵损失时,需要构造一个logit 矩阵,其每个条目对应输入 token 与词表

          论文提出了 Cut Cross-Entropy(CCE),一种在不将完整 logits 写入全局内存的情况下计算交叉熵损失的方法

          论文笔记:Knowing When to Stop: Dynamic Context Cutoff for Large Language Model-CSDN博客

          arxiv 202502

          论文 提出了一种新方法,称为动态上下文截断(Dynamic Context Cutoff),它使得 LLM 能够判断在任务中何时已获取充足信息,从而主动停止继续处理剩余输入。
          核心发现源于模型内部分析:某些特定的注意力头(attention heads)对信息“足够”这一信号非常敏感
          通过轻量级分类器来实时监控这些“指示性注意力头”(indicator heads),从而让模型在保持性能的同时,学会做出提前终止的决策。

          25 推理

          论文略读:LIMO: Less is More for Reasoning-CSDN博客

          202502 arxiv

          在数学推理领域,论文提出的LIMO仅用 817 条精心设计的训练样本,借助简单的监督微调,就全面超越了使用十万量级数据训练的主流模型

          论文略读:Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries-CSDN博客

          模型如何在不同步骤生成不同答案的整体过程;

          通过“早期解码””(early decode)分析注意力机制(attention)和多层感知机(MLPs)在不同层级上的输出,观察主题词和答案词的 logits 是如何随层变化的,发现

          语言模型在中间层使用注意力机制复制主题信息;

          随后 MLP 模块会提升所有可能答案的概率;

          在较晚层,注意力机制与 MLP 联合对之前已经生成的答案进行压制(suppression)

          论文略读:Efficient Reasoning for LLMs through Speculative Chain-of-Thought-CSDN博客

          202504 arxiv

          论文提出SCoT(推测性思维链)

          • 小模型快速生成多个短的思考过程
          • 大模型选择最好的小模型的思考过程作为答案,
          • 如果小模型全错,那就大模型重新生成一遍思考过程

          论文略读:OmniKV: Dynamic Context Selection for Efficient Long-Context LLMs-CSDN博客

          2025 ICLR

          核心思想:在单个生成步骤内,被模型高度关注的(注意力得分高的)Token 集合,在不同的 Transformer 层之间表现出高度的相似性

          出OmniKV
          仅选择少数几个层(称为 “Filter 层”)来计算完整的注意力分数并识别重要的 Token 子集
          其他大多数层则直接复用(共享)来自最近 Filter 层识别出的 Token 索引。
          在计算注意力时,仅加载并计算这个稀疏子集 KV Cache,从而大幅减少计算量和数据传输量

          论文略读:Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness-CSDN博客

          202505 arxiv

          • 对于固定的问题,准确率与推理长度呈现非单调关系:随着推理变长,准确率先提升,但当推理过长时反而下降
          • 错误回答的问题,其平均推理长度往往比正确回答的问题更长,这可能源于这些问题本身的复杂性,需要更多的推理步骤。

          26 模型编辑

          论文略读:Knowledge is a Region in Weight Space for Finetuned Language Models-CSDN博客

          EMNLP 2023

          • 权重空间中的聚集性
            • 在同一个数据集上微调的,架构相同的语言模型,在权重空间中形成紧密的聚类(tight cluster);
            • 对于来自同一任务但不同数据集的微调模型,它们在权重空间中也形成一个相对较松散的聚类(looser cluster);
            • 换言之,模型的“几何位置”能够反映出它们的任务相似性和数据分布。

          论文略读:Decomposing and Editing Predictions by Modeling Model Computation-CSDN博客

          ICML 2024

          • 关注组件归因(Component Attribution)
            • 它的目标是:估计某个具体组件对模型某个预测结果的“反事实影响”
            • 即如果没有这个组件,预测是否会发生改变。

          论文略读: Overcoming Generic Knowledge Loss with Selective Parameter Updat-CSDN博客

          2024 cvpr

          如何持续地更新基础模型以适应新知识,同时保持其原有能力

          论文提出了一种新颖的方法:不对所有参数进行统一更新,而是将更新局部化,仅作用于与当前学习任务相关的稀疏参数子集

          27 模型合并

          论文笔记:EDITING MODELS WITH TASK ARITHMETIC-CSDN博客

          2023 ICLR

          任务向量的起源

          论文Composing Parameter-Efficient Module with Arithmetic Operation

          NEURIPS 2023 

          任务向量+Lora adpter

          论文略读:TIES-MERGING: Resolving Interference When Merging Models-CSDN博客

          neurips 2023

          论文略读:Arcee’s MergeKit: A Toolkit for Merging Large Language Models-CSDN博客

          emnlp 2024

          提出了 MergeKit ——一个用于执行社区提出的模型融合策略的统一库。MergeKit 兼容 内存受限的 CPU 以及 加速的 GPU 设备

          论文笔记LANGUAGE MODELS ARE HOMER SIMPSON! SafetyRe-Alignment of Fine-tuned Language Models through Tas-CSDN博客

          ACL 2O24

          论文提出了一种简单有效的安全再对齐方法——RESTA

          RESTA 的核心思想非常简洁:将一个“安全向量”以算术加法的形式直接加到已失去安全性的模型权重上,从而实现安全性恢复。

          论文略读:Localizing Task Information for Improved Model Merging and Compression-CSDN博客

          ICML 2024

          提出了一种称为 Consensus Merging(共识合并) 的模型合并方法,利用构造的掩码来去除灾难性和自私权重,保留对多个任务都有用的“通用权重”

          论文笔记:Knowledge Fusion of Large Language Models

          ICLR 2024

          • 本文从概率分布视角探讨 LLM 融合

            • 提出了一种对不同 LLM tokenizer 生成的 token 进行对齐的新策略,并探索了两种概率分布融合方法。

            • 在持续训练过程中,FUSELLM 强调最小化目标 LLM 与源 LLM 概率分布之间的差异。

          论文笔记:Parameter Competition Balancing for Model Merging-CSDN博客

          neurips 2024

          • 通过对每个参数分配不同的融合系数,实现对任务间参数竞争的动态平衡。

          论文笔记Language and Task Arithmetic with Parameter-Efficient Layers

          MRL 2024

          任务向量+多语言微调

          论文笔记:MetaGPT

          emnlp 2024

          自适应找任务向量相加的λ

          论文笔记:EMR-MERGING: Tuning-Free High-Performance Model Merging-CSDN博客

          2024 neurips

          论文略读:Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging-CSDN博客

          neurips 2024

          • 首先通过压缩多个任务专家模型之间的共通部分,构造出一个共享专家模型,集中表达跨任务的通用知识;

          • 然后,根据每个专家与共享模型的差异,提取其独有知识,实现更精细的知识解耦。

          • 之后用MoE合并专家知识

          论文略读:Model Merging and Safety Alignment: One Bad Model Spoils the Bunch-CSDN博客

          EMNLP 2024

          • 评估了几种流行的模型合并技术,结果表明:现有方法不仅会传递领域专业知识,也会传播“对齐失衡”问题
          • 提出了一个简单的两步方法:

            • 生成合成的安全性和领域特定数据

            • 将这些生成数据引入现有的数据感知型模型合并算法中进行优化

          论文笔记:Tuning Language Models by Proxy_论文里的proxy-CSDN博客

          COLM 2024

          • 微调一个 小模型(称为 expert,专家模型);

          • 将其与原始小模型(称为 anti-expert,反专家)对比;

          • 将它们的预测差异用于 引导大模型的输出,以模仿微调后模型的行为。

          LLaMA-2-base 13B+(LLaMA-2-chat 7B−LLaMA-2-base 7B)

          论文略读:OnGiant’s Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion-CSDN博客

          neurips 2024

          尽管 logit 算术方法展现出一定潜力,但与对大模型直接微调相比,其性能仍存在明显差距

          • 论文重新思考了 logit 算术的实践方式,并提出一个新的融合框架
            • 使用一组在不同任务上微调过的小模型专家(SLM experts)

            • 在每个解码步骤上,动态地分配这些小模型的融合权重

          论文略读: Howto Merge Your Multimodal Models Over Time?-CSDN博客

          CVPR 2024

          • 论文关注时间维度上的模型融合(Temporal Model Merging)
            • 也即模型不是一次性进行融合的,而是一个一个融合进来的
          • 论文提出了一个统一框架 TIME(Temporal Integration of Model Expertise),从三个关键维度系统刻画时间维度模型融合的设计空间

          论文略读:PERSONALIZED PIECES: Efficient Personalized Large Language Models through Collaborative Effort_persllm: a personi铿乪d training approach for largel-CSDN博客

          EMNLP 2024

          • 受到人类偏好多样性研究的启发,论文提出了 Personalized Pieces(Per-Pcs) 框架
            • 该框架允许用户安全共享部分 PEFT 参数片段,通过协作构建个性化 LLM,从而实现高效个性化

          论文笔记:Task Arithmetic+ Automatic Speech Recognition

          EMNLP 2024

          论文略读:Representation Surgery for Multi-Task Model Merging-CSDN博客

          ICML 2024 

          提出了一种表示修正(representation surgery)方法,称为 Surgery,用于减少合并模型中的表示偏差。
          Surgery 是一个轻量级的任务特定模块,它以合并模型的表示作为输入,试图输出该表示中所包含的偏差信息。
          随后,设计了一种无监督的优化目标,通过最小化合并模型的表示与原始单个模型的表示之间的距离,来更新 Surgery 模块。

          论文略读:Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch-CSDN博客
          论文略读:Towards Modular LLMs by Building and Reusing a Library of LoRAs-CSDN博客

          ICML 2024

          基于多任务数据构建一个高效的适配器库,并设计了在该库中实现零样本(zero-shot)和有监督任务泛化的路由机制

          论文笔记:任务向量+跨语言迁移 EACL 2024

          EACL 2024 

          论文略读:Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch-CSDN博客

          ICML 2024 

          • 使用 DARE 稀疏化每个模型的 delta 参数,减少参数干扰;

          • 利用现有模型融合方法将稀疏参数进行融合,构建出一个具备多种能力的新模型

          论文略读:REMEDY: RECIPE MERGING DYNAMICS IN LARGE VISION-LANGUAGE MODELS_recipe是在哪个论文剔除-CSDN博客

          ICLR 2025

          提出了REcipe MErging DYnamics(REMEDY),一个针对 LVLM 的模型合并新范式,解决传统视觉模型合并方法的局限性

          论文笔记:任务向量+信息检索 SIGIR 2025
          论文笔记 Model Merging in Pre-training of Large Language Models

          202505 arxiv

            • 在预训练过程中,定期将不同训练阶段的模型权重进行平均,生成一个「合并模型」

            • 这是因为:预训练后期的模型权重往往在参数空间中探索了不同的局部最优解,通过平均化可以抵消单个模型的偏差,逼近更优的全局解

          论文略读:Mitigating Catastrophic Forgetting in Language Transfer via Model Merging_mitigating catastrophic forgetting in retrieval-au-CSDN博客 论文基于**持续学习(continual learning)**的思想,提出了一种新的语言适配方法:Branch-and-Merge(BaM)
          • BaM 能够将预训练语言模型适配到那些在其原始训练数据中严重低资源的新语言,同时尽可能保留原有已学习的能力

          论文笔记:Come Together, But Not Right Now

          • 采用了渐进式的LoRA adapter参与激活的策略

            • 训练初期

              • 以一个较高的概率随机 「失活」 一部分 LoRA 适配器

              • 这迫使模型在更新时不能过分依赖某几层,从而让梯度更均匀地流向所有层级,鼓励模型探索更广阔的参数空间。

            • 训练中后期

              • 线性地提高适配器的激活概率,直到所有适配器都完全参与训练,回归到标准的微调模式。

          论文笔记:理论证明任务向量有效性

          WHEN IS TASK VECTOR Provably EFFECTIVE FOR MODEL EDITING? A GENERALIZATION ANALYSIS OF NONLINEAR TRANSFORMERS ICLR 2025 ORAL

          理论证明了

          论文笔记:LED-Merging

          ACL 2025

          定位+选举+解耦冲突,得到互不干扰,互相分工明确的神经元向量,以进行安全有效的融合

          Logo

          技术共进,成长同行——讯飞AI开发者社区

          更多推荐