论文目录3:大模型时代(2023+)
早期做instruction tuning的workin-context learning都是没有finetune过程,这里相当于finetune了一下在in-context learning的时候,故意给一些错误的例子、其他领域的返利,看看大模型的效果——>这篇论文的结论是,in-context learning只起到“唤醒”的作用,LLM本身就具备了所需要的功能。这里给LLM范例的作用只是提示
1 instruction tuning & in context learning
论文名称 | 来源 | 主要内容 |
Finetuned Language Models Are Zero-Shot Learners | 2021 |
机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客 早期做instruction tuning的work |
MetaICL: Learning to Learn In Context | 2021 |
机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客 in-context learning都是没有finetune过程,这里相当于finetune了一下 |
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? |
2023 |
机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客 在in-context learning的时候,故意给一些错误的例子、其他领域的返利,看看大模型的效果 ——>这篇论文的结论是,in-context learning只起到“唤醒”的作用,LLM本身就具备了所需要的功能。这里给LLM范例的作用只是提示LLM要做这个任务了 |
Larger language models do in-context learning differently | 2023 |
机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客 在更大的LLM中,in context learning 确实也起到了让模型学习的作用 |
2 Chain of Thought
论文名称 | 来源 | 主要内容 |
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | 2022 |
|
Large Language Models are Zero-Shot Reasoners | 2022 |
在进行CoT的时候,范例输完了,需要模型回答的问题说完了,加一行’Let's think step by step',可以获得更好的效果 |
论文略读:If Multi-Agent Debate is the Answer, What is the Question?-CSDN博客 | 2025 |
目前多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought |
论文笔记:Measuring Chain of Thought Faithfulness by Unlearning Reasoning Steps-CSDN博客 | 202502 arxiv |
论文引入了一种全新的度量方法 —— 参数可信度框架(P),用于系统评估语言模型推理的可信度。
|
3 others
论文略读:Onthe Expressivity Role of LayerNorm in Transformers’ Attention-CSDN博客 | ACL 2023 | LayerNorm为Transformer的Attention提供了两个重要的功能:
|
论文笔记:Frozen Language Model Helps ECG Zero-Shot Learning_冻结语言模型帮助心电图零样本学习-CSDN博客 | 2023 MIDL |
利用临床报告来引导ECG数据的预训练,实现ECG数据的零样本学习 |
Is ChatGPT A Good Translator? A Preliminary Study | 2023 |
专项翻译任务上,ChatGPT不如一些专门做翻译的模型 |
论文笔记:Evaluating the Performance of Large Language Models on GAOKAO Benchmark-CSDN博客 | 测评gpt在高考各科(文理)上得分的异同 | |
How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation | 2023 |
专项翻译任务上,ChatGPT不如一些专门做翻译的模型 |
论文笔记:Can Large Language Models Beat Wall Street? Unveiling the Potential of AI in Stock Selection-CSDN博客 | 202401 arxiv |
提出了 MarketSenseAI,整合了多种数据来源,包括实时市场动态、财经新闻、公司基本面和宏观经济指标,利用GPT-4生成全面的投资建议 |
论文笔记:Lost in the Middle: How Language Models Use Long Contexts_lost in the middle人工智能-CSDN博客 | Transactions of the Association for Computational Linguistics 2024 |
|
论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS-CSDN博客 | iclr 2024 spotlight reviewer 评分 6668 | ![]() |
ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models-CSDN博客 | iclr 2024 oral reviewer 评分 688 |
目前LLM社区中通常使用GELU和SiLU来作为替代激活函数,它们在某些情况下可以提高LLM的预测准确率 但从节省模型计算量的角度考虑,论文认为经典的ReLU函数对模型收敛和性能的影响可以忽略不计,同时可以显着减少计算和权重IO量\ |
论文笔记:The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”-CSDN博客 | iclr 2024 reviewer 评分668 |
|
论文笔记:The Expressive Power of Transformers with Chain of Thought-CSDN博客 | ICLR 2024 reviewer 评分 6888 |
论文描述在生成答案前采取中间步骤的Transformer解码器的推理能力,并将其与没有中间步骤的Transformer进行比较 |
论文笔记:BooookScore: A systematic exploration of book-length summarization in the era of LLMs-CSDN博客 | iclr oral reviewer 评分 88810 |
|
论文略读:LLMCarbon: Modeling the End-to-End Carbon Footprint of Large Language Models-CSDN博客 | iclr 2024 oral reviewer 评分 556810 | 论文提出了一个端到端的碳足迹预测模型LLMCarbon
|
论文略读:Memorization Capacity of Multi-Head Attention in Transformers-CSDN博客 | iclr spotlight reviewer评分 6888 | 论文研究了一个具有H个头的单层多头注意力(MHA)模块的记忆容量 |
论文略读:EDT: Improving Large Language Models’ Generation by Entropy-based Dynamic Temperature Sampling-CSDN博客 | 南大 2024年3月的work |
|
论文略读:Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore-CSDN博客 | arxiv 202405 |
人类在写作时比语言模型更容易犯语法错误 |
论文笔记:Does Writing with Language Models Reduce Content Diversity?-CSDN博客 | iclr 2024 reviewer评分 566 |
同质化:使用LLM写作的用户彼此写得是否更相似? |
论文略读Fewer Truncations Improve Language Modeling-CSDN博客 | icml 2024 |
在传统LLM训练过程中,为了提高效率,通常会将多个输入文档拼接在一起,然后将这些拼接的文档分割成固定长度的序列。 论文提出了最佳适配打包 (Best-fit Packing)
|
论文略读: LLaMA Pro: Progressive LLaMA with Block Expansion-CSDN博客 | 提出了一种用于LLMs的新的预训练后方法
|
|
论文略读:Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?-CSDN博客 | 论文提出了LOFT(Long-Context Frontiers)基准测试,全面测试长上下文模型的能力 |
|
论文略读: Scaling laws with vocabulary: larger model deserve larger vocabularies-CSDN博客 | 更大的模型应该配备更大的词表,且在给定算力的情况下,最优的词表大小是有上限的 | |
论文略读: TransTab: Learning Transferable Tabular Transformers Across Tables-CSDN博客 | 2022 neurips |
|
论文笔记:Are we there yet? Revealing the risks of utilizing large language models in scholarly peer revi-CSDN博客 | 202412 arxiv | 大语言模型在审稿中存在各种潜藏的风险 |
ICLR 2025 5666 |
研究LLM是否能生成真正新颖且具专家水平的研究构想 LLM 生成的研究想法在新颖性方面被评价为优于人类专家构想(p < 0.05), |
|
论文略读:MLPs Learn In-Context on Regression and Classification Tasks-CSDN博客 | ICLR 2025 36688 |
多层感知机(MLPs)也具备学习 in-context 能力 在相同计算预算下,MLPs 及其相关架构 MLP-Mixer 在 ICL 表现上可与 Transformers 相媲美 |
论文略读:Theory, Analysis, and Best Practices for Sigmoid Self-Attention-CSDN博客 | ICLR 2025 566 |
证明了使用 sigmoid 注意力的 Transformer 是通用函数逼近器,并且相比于 softmax 注意力,它在正则性方面更具优势 提出了 FLASHSIGMOID,这是一种面向硬件、内存高效的 sigmoid 注意力实现版本 |
论文略读:LLMEmbeddings for Deep Learning on Tabular Data-CSDN博客 | 202502 arxiv |
论文将每个特征-取值对转化为一个句子,例如:“Age is 45”, “Income is High”, “Has Loan is Yes” 使用 LLM 编码这些句子,获得特征级嵌入 将这些嵌入作为输入提供给表格深度学习模型(如 FT-Transformer) 无需对 LLM 进行微调,即可提升模型表现 |
论文略读:RegMix: Data Mixture as Regression for Language Model Pre-training-CSDN博客 | iclr 2025 688 |
LLM的预训练数据混合比例对模型性能有显著影响,但如何确定一个有效的数据混合策略仍不清楚 提出了 RegMix,一种将数据混合选择建模为回归任务、用于自动识别高性能数据混合比例的方法 |
论文略读:Large Language Models Assume People are More Rational than We Really are-CSDN博客 | ICLR 2025 5668 |
大模型普遍高估了人类的理性程度,它们更倾向于依据经典的**期望值理论(expected value theory)**来预测行为,而不是符合真实人类的决策模式。 |
论文略读:When Attention Sink Emerges in Language Models: An Empirical View-CSDN博客 | ICLR 2025 spotlight 688 |
ICLR 2025 spotlight 688
论文证明了:注意力陷阱普遍存在于各种输入下的自回归语言模型中,即便是在小模型中也会出现 此外,另一个结论是,注意力陷阱会在预训练过程中逐渐显现 |
论文略读:From Words to Worth: Newborn Article Impact Prediction with LLM-CSDN博客 | AAAI 2025 |
微调LLM,引导它来根据题目和摘要预测一个0-1之间的文献计量学指标 |
论文略读: NutriGen: Personalized Meal Plan Generator Leveraging Large Language Models to Enhance Dietar-CSDN博客 | 202503 arxiv |
|
论文略读:Eeyore: Realistic Depression Simulation via Supervised and Preference Optimization-CSDN博客 | ACL 2025 |
论文提出了一种结构化对齐框架,旨在优化 LLM 在临床训练场景中对抑郁个体的语言、认知模式和体验特征的模拟能力 |
论文略读: R2: A LLM BASED NOVEL-TO-SCREENPLAY GENERATION FRAMEWORK WITH CAUSAL PLOT GRAPHS-CSDN博客 | 202503 arxiv |
LLM+小说转剧本 |
论文略读:AIstorian lets AI be a historian: A KG-powered multi-agent systemfor accurate biography genera-CSDN博客 | 202503 arxiv | 论文提出了 AIstorian,一个创新的 agentic 系统,用于实现高质量传记生成
|
论文略读:ATraining-free LLM-based Approach to General Chinese Character Error Correction-CSDN博客 | 202502 arxiv |
LLM+通用中文字符错误(General Chinese Character Errors,简称 C2E) |
4 大模型+时间序列
5 mobility+大模型
6 prompt
论文笔记:Prompting Large Language Models with Divide-and-Conquer Program forDiscerning Problem Solving-CSDN博客 |
对于涉及重复子任务 / 含有欺骗性内容的任务(如段落级别长度的虚假新闻检测),对输入进行拆分可以提升模型对于错误信息的分辨能力 有一定的理论证明 arxiv 202402 |
论文略读: ALPAGASUS: TRAINING A BETTER ALPACA WITH FEWER DATA-CSDN博客 |
ICLR 2024 论文提出了一种简单有效的数据选择策略,使用ChatGPT自动识别和过滤掉低质量数据 |
论文笔记:TALK LIKE A GRAPH: ENCODING GRAPHS FORLARGE LANGUAGE MODELS-CSDN博客 |
ICLR 2024,reviewer评分 6666
|
论文笔记:ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate-CSDN博客 |
ICLR 2024 最终评分 55666 论文采用了多agent辩论框架
|
论文笔记:Chain-of-Table:EVOLVING TABLES IN THE REASONING CHAIN FOR TABLE UNDERSTANDING-CSDN博客 |
ICLR 2024 reviewer评分 5566 提出了CHAIN-OF-TABLE,按步骤进行推理,将逐步表格操作形成一系列表格
|
论文笔记:Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering-CSDN博客 |
|
论文笔记:Take a Step Back:Evoking Reasoning via Abstraction in Large Language Models-CSDN博客 |
ICLR 2024 reviewer 打分 888 在进行prompt的时候,先后退一步,从更宏观的角度来看问题,让LLM对问题有一个整体的理解;然后再回到detail上,让模型回答更具体的问题 |
论文笔记:Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs-CSDN博客 |
不需要微调来激发LLMs置信度表达的方法 |
论文笔记:Teaching Large Language Models to Self-Debug-CSDN博客 |
ICLR 2024 REVIEWER打分 6666 提出了一种名为 Self-Debugging 的方法,通过执行生成的代码并基于代码和执行结果生成反馈信息,来引导模型进行调试 |
论文笔记:Large Language Models as Analogical Reasoners-CSDN博客 |
iclr 2024 reviewer打分5558 论文提出一种“归纳学习”的提示方法
|
论文笔记:UNDERSTANDING PROMPT ENGINEERINGMAY NOT REQUIRE RETHINKING GENERALIZATION-CSDN博客 |
ICLR 2024 reviewer评分 6888 zero-shot prompt 在视觉-语言模型中,已经取得了令人印象深刻的表现
|
论文笔记:Are Human-generated Demonstrations Necessary for In-context Learning?-CSDN博客 |
iclr 2024 reviewer 评分 6668 >提出了自我反思提示策略(简称 SEC)
|
论文略读:Ask, and it shall be given: On the Turing completeness of prompting-CSDN博客 |
ICLR 2025 5566 证明了一个重要结论:提示(prompting)本质上是图灵完备的。也就是说,存在一个固定大小的 Transformer,使得对任何可计算函数,都存在一个对应的提示,使该 Transformer 能够计算该函数的输出。 进一步地,我们还证明:尽管仅使用一个有限大小的 Transformer,它依然能够实现接近于所有无限大小 Transformer 所能达到的复杂度上限。 |
7 RAG
论文略读:Self-Knowledge Guided Retrieval Augmentation for Large Language Models-CSDN博客 | 2023 emnlp findings | 设计了名为 SKR (Self-Knowledge Guided Retrieval Augmentation)的框架
|
论文略读:GRAG:GraphRetrieval-Augmented Generation_grag: graph retrieval-augmented generation-CSDN博客 | 论文提出了GRAG,通过考虑文献之间的引用网络和主题分布将拓扑信息在检索阶段和生成阶段利用起来,提高生成式语言模型的生成质量和图场景下的上下文一致性 | |
论文笔记:Seven Failure Points When Engineering a Retrieval AugmentedGeneration System-CSDN博客 | CAIN 2024 |
在工程化一个RAG系统时的七个不足之处 |
论文略读:When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric-CSDN博客 | 2023 ACL |
一个主要的结论:对于语言模型来说,当问题需要的知识是高频率的热门知识时,检索增强反而会降低模型的性能。——>论文提出只对问到长尾的知识的问题进行检索。 |
论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE-CSDN博客 | 微软24年1月 |
|
论文略读:LLMs+Persona-Plug = Personalized LLMs_llms + persona-plug = personalized llms-CSDN博客 | ![]() |
|
论文笔记:Retrieval-Augmented Generation forAI-Generated Content: A Survey-CSDN博客 | 北大202402的RAG综述 | |
论文略读:The Power of Noise: Redefining Retrieval for RAG Systems-CSDN博客 | 在RAG中,噪声文档不仅没有对系统性能造成负面影响,反而能够显著提高系统的准确性 | |
论文略读 RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedba-CSDN博客 | ACL 2024 |
|
论文略读:Ward: Provable RAG Dataset Inference via LLM Watermarks-CSDN博客 | ICLR 2025 6668 |
|
论文略读:SmartRAG: Jointly Learn RAG-Related Tasks From the Environment Feedback-CSDN博客 | ICLR 2025 5568 |
之前RAG的模块都是单独训练的——>论文认为这些模块应该联合优化 设计了一个名为 SmartRAG 的特定流程,该流程包括一个策略网络(policy network)和一个检索器(retriever) 使用强化学习算法对整个系统进行联合优化,旨在鼓励系统在最小化检索成本的同时实现最优性能 |
论文略读:GINGER: Grounded Information Nugget-Based Generation of Responses-CSDN博客 | SIGIR 2025 |
论文提出了一个模块化流水线:GINGER(Grounded Information Nugget-Based GEneration of Response) |
论文略读:Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection-CSDN博客 | 202501 arxiv |
提出了一种新颖的 Self-Selection RAG 框架,其核心思想是:让 LLM 自己评估和选择更准确的答案。 首先,模型基于内部知识生成一个 LLM 答案及其推理过程; 然后,使用检索模块获取外部相关文本,输入 LLM 并生成 RAG 答案及其解释 接着,我们再向 LLM 输入:原始查询 + LLM 答案及解释 + RAG 答案及解释,让模型从两者中选择更正确的一个 提出了一个优化方法:Self-Selection-RGP,利用 直接偏好优化(Direct Preference Optimization, DPO) 技术,对 LLM 进行微调 |
论文略读:HOH:ADynamicBenchmark for Evaluating the Impact of Outdated Information on Retrieval-Augmented-CSDN博客 | 202503 arxiv |
论文提出 HOH(How Outdated information Harms RAG),这是首个用于评估 RAG 抵抗过时信息能力的大规模基准测试集。 |
8 finetune
论文略读:Parameter-efficient transfer learning for NLP-CSDN博客 |
ICML 2019 增加了两个Adapter结构,分别是多头注意力的投影之后和第二个feed-forward层之后 |
论文略读:AdapterDrop: On the Efficiency of Adapters in Transformers-CSDN博客 |
EMNLP 2020
|
论文略读:BitFit: Simple Parameter-efficient Fine-tuning or Transformer-based Masked Language-models-CSDN博客 |
ACL 2021 对于Transformer模型而言,冻结大部分 transformer-encoder 参数,只更新bias参数跟特定任务的分类层参数 |
论文略读:Prefix-Tuning: Optimizing Continuous Prompts for Generation-CSDN博客 |
ACL 2021
|
论文略读:UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning-CSDN博客 |
LoRA+Prefix Tuning+Adapter+门控 |
论文略读; AdapterFusion:Non-Destructive Task Composition for Transfer Learning-CSDN博客 |
EACL 2021 在 Adapter 的基础上进行优化
|
论文略读:MOELoRA- An MOE-based Parameter Efficient Fine-Tuning Method for Multi-task Medical Application-CSDN博客 |
202310 arxiv MoE+LoRA |
论文笔记:GEOLLM: EXTRACTING GEOSPATIALKNOWLEDGE FROM LARGE LANGUAGE MODELS_geollm-base-CSDN博客 |
ICLR 2024 reviewer 评分 35668 介绍了GeoLLM,一种新颖的方法
|
Knowledge Card: Filling LLMs‘ Knowledge Gaps with Plug-in Specialized Language Models-CSDN博客 |
ICLR 2024 (oral) reviewer评分 888 提出了KNOWLEDGE CARD |
论文笔记:NEFTune: Noisy Embeddings Improve Instruction Finetuning-CSDN博客 |
iclr 2024 reviewer 评分 5666 在finetune过程的词向量中引入一些均匀分布的噪声即可明显地提升模型的表现 |
论文略读:LoRA Learns Less and Forgets Less-CSDN博客 | LORA相比于全参数训练,学的少,但忘的也少 |
论文笔记:LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models-CSDN博客 |
iclr 2024 reviewer 评分 568 论文提出了LayoutNUWA,这是第一个将布局生成视为代码生成任务的模型,以增强语义信息并利用大型语言模型(LLMs)的隐藏布局专长。 |
论文略读:RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs-CSDN博客 | 2024 Neurips
|
论文略读: To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Mode-CSDN博客 |
ICML 2024
|
Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generat-CSDN博客 |
iclr 2025 5688
|
论文略读: CATASTROPHIC FAILURE OF LLM UNLEARNING VIA QUANTIZATION-CSDN博客 |
ICLR 2025
|
论文略读:MSPLoRA: A Multi-Scale Pyramid Low-Rank Adaptation for Efficient Model Fine-Tuning-CSDN博客 |
202502 arxiv 论文提出MSPLoRA(多尺度金字塔 LoRA), 构建了一个多尺度的 LoRA 结构,旨在解耦全局、中层和细粒度信息
|
论文略读: RASA: RANK-SHARING LOW-RANK ADAPTATION-CSDN博客 |
ICLR 2025 LoRA 参数中存在冗余性 论文提出了 Rank-Sharing Low-Rank Adaptation(RaSA),一种通过在层间部分共享秩来提升 LoRA 表达能力的方法 |
9 安全&隐私&遗忘
论文笔记:GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher-CSDN博客 |
——>这样的步骤成功地绕过了GPT-4的安全对齐【可以回答一些反人类的问题,这些问题如果明文问的话,GPT-4会拒绝回答】 |
论文笔记:When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models-CSDN博客 |
弱智吧benchmark
|
论文略读:Towards Safer Large Language Models through Machine Unlearning-CSDN博客 |
ACL 2024 选择性知识否定去学习方法, |
论文略读: To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Mode-CSDN博客 |
ICML 2024 每一个被遗忘的文本序列都应根据其在 LLM 中的“记忆程度”来采取不同的遗忘策略。
|
论文略读:Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models-CSDN博客 |
2024 neurips 对齐后的 LLM 在微调过程中具有意想不到的脆弱性 ——即使只使用极少量的恶意数据,甚至是完全良性的微调数据,也可能大幅削弱其原本的安全防护能力 为了解决这种安全性退化的问题,本文提出了 Safe LoRA ——一个对原始 LoRA 实现的仅需一行代码的补丁,可以显著增强 LLM 在微调过程中的安全鲁棒性。 |
论文笔记:Detecting Pretraining Data from Large Language Models-CSDN博客 |
iclr 2024 reviewer评分 5688 提出了一个基准 WikiMIA和一种预训练数据检测方法Min-K% Prob |
论文略读:Case-Based or Rule-Based: How Do Transformers Do the Math?-CSDN博客 |
ICML 2024 大模型是基于规则还是基于样例 推理数学呢? |
论文略读:WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models-CSDN博客 |
neurips 2024 提出了一种名为 WISE 的方法,用于弥合长期记忆与工作记忆之间的差距 一份用于存储预训练知识的主记忆(main memory); 一份专门用于存储编辑知识的辅助记忆(side memory)。 |
论文笔记:Teach LLMs to Phish: Stealing Private Information from Language Models-CSDN博客 |
iclr 2024 reviewer 评分 588
|
论文笔记:Time Travel in LLMs: Tracing Data Contamination in Large Language Models-CSDN博客 |
iclr 2024 spotlight reviewer评分 688 论文提出了两种启发式方法来估计整个数据集分区是否受污染 |
论文略读:FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!-CSDN博客 |
iclr oral reviewer 打分 66610 论文发现:通过仅用少量对抗性设计的训练示例进行微调,可以破坏LLMs的安全对齐 |
论文略读:Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Att-CSDN博客 |
iclr 2024 spotlight reviewer 评分 6888 直接从模型权重中删除敏感信息的任务 |
论文略读: Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probab_fast-detectgpt efficient zero-shot detection of ma-CSDN博客 |
ICLR 2024 人类和机器在给定上下文的情况下选择词汇存在明显的差异
|
论文略读:The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Language Models-CSDN博客 | ![]() |
论文笔记:PRIVACY ISSUES IN LARGE LANGUAGE MODELS: A SURVEY-CSDN博客 | 大模型隐私综述 |
论文略读:Learning and Forgetting Unsafe Examples in Large Language Models-CSDN博客 | 然对齐的LLMs可以轻松学习这些不安全内容,但当随后在更安全的内容上进行微调时,它们相对于其他示例更容易遗忘这些内容。 |
论文略读:Large Language Models Relearn Removed Concepts-CSDN博客 | 模型可以通过将高级概念重新定位到较早的层,并将修剪的概念重新分配给具有相似语义的激活神经元,从而在修剪后迅速恢复性能。 |
论文略读:Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore-CSDN博客 |
人类在写作时比语言模型更容易犯语法错误 |
论文略读:PEARL: Towards Permutation-Resilient LLMs-CSDN博客 |
ICLR 2025 3688 上下文学习(In-context Learning, ICL)对演示样本的排列顺序极为敏感 仅通过打乱演示样本的顺序,就能在 LLaMA-3 上实现近 80% 的攻击成功率。 为应对这一问题,作者提出了Permutation-resilient learning(PEARL),一种基于**分布式鲁棒优化(DRO)**的新颖训练框架,旨在使模型对最不利的输入排列也能保持良好性能。 |
论文略读:Mitigating Memorization in Language Models-CSDN博客 |
ICLR 2025 spotlight 688 系统地探讨了缓解语言模型记忆行为的方法,通过实验证明:
|
论文略读:MUSE: Machine Unlearning Six-Way Evaluation for Language Models-CSDN博客 |
ICLR 2025 56668 提出了 MUSE ——一个全面的机器遗忘评估基准(Machine Unlearning Evaluation Benchmark) |
论文略读:Does Refusal Training in LLMs Generalize to the Past Tense?-CSDN博客 |
ICLR 2025 1688 仅仅将一个有害请求改写为过去时(例如,将“How to make a Molotov cocktail?”改为“How did people make a Molotov cocktail?”)通常就足以破解许多最先进的 LLM。 |
论文略读:Unlearning or Obfuscating? Jogging the Memory of Unlearned LLMs via Benign Relearning-CSDN博客 |
ICLR2025 5688 仅凭一小部分可能与目标知识仅松散相关的数据,攻击者就可以“唤醒”被遗忘模型的记忆,逆转遗忘的效果 当前主流的近似遗忘方法本质上仅是对模型输出的抑制,而未能真正清除 LLM 中的目标知识表示。 |
论文略读:PEARL: Towards Permutation-Resilient LLMs-CSDN博客 |
ICLR 2025 3688 上下文学习(In-context Learning, ICL)对演示样本的排列顺序极为敏感 这一脆弱性可被利用来设计一种自然但难以被模型提供者察觉的攻击方式——仅通过打乱演示样本的顺序,就能在 LLaMA-3 上实现近 80% 的攻击成功率 作者提出了Permutation-resilient learning(PEARL),一种基于**分布式鲁棒优化(DRO)**的新颖训练框架,旨在使模型对最不利的输入排列也能保持良好性能。 |
论文略读:Anticipate & Act : Integrating LLMs and Classical Planning forEfficient Task Execution in Hous-CSDN博客 |
202502 arxiv H1: LLM 的隐藏表示中包含一个稳定且可测量的信号,能够指示模型当前处于“安全态”或“越狱态”。 |
论文略读:Adversarial Perturbations Cannot Reliably Protect Artists From Generative AI-CSDN博客 |
ICLR 2025 spotlight 6888 随着图像生成模型不断进步,能够高度模仿艺术家独特风格的能力也越来越强 作为应对,一些防护工具应运而生,这些工具在艺术家上传的作品中嵌入细微的对抗扰动,以防止风格被模仿 然而,在本研究中,论文评估了几种主流风格保护工具的实际效果,并发现它们只是带来了虚假的安全感。 |
论文略读:REEF: Representation Encoding Fingerprints for Large Language Models-CSDN博客 |
ICLR 2025 ORAL 提出了一种无需训练的识别方法 REEF,从 LLM 特征表示的角度出发,用于判断可疑模型与被侵权模型之间的关系。 |
论文略读:HOW MUCH OF MYDATASET DID YOU USE? QUANTITATIVE DATA USAGE INFERENCE IN MACHINE LEARNING-CSDN博客 |
ICLR 2025 “我的数据在多大程度上被用于训练某个机器学习模型?”这是数据所有者在评估其数据是否被未经授权使用时面临的一个关键问题。
|
论文略读:Bypassing Safety Guardrails in LLMs Using Humor-CSDN博客 |
202504 arxiv
|
10 benchmark
论文笔记/数据集笔记:E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning-CSDN博客 |
ACL 2022
|
论文略读:MathBench: Evaluating the Theory and Application Proficiency of LLMswith a Hierarchical Mathem_mathbench数据集 中文-CSDN博客 |
ACL 2024 findings 数学benchmark,涵盖从小学、初中、高中、大学不同难度,从基础算术题到高阶微积分、统计学、概率论等丰富类别的数学题目 |
论文略读:MathScale: Scaling Instruction Tuning for Mathematical Reasoning-CSDN博客 |
|
论文笔记:Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Healthcare Quer-CSDN博客 |
WWW 2024
|
论文笔记:SmartPlay : A Benchmark for LLMs as Intelligent Agents-CSDN博客 |
iclr 2024 reviewer评分 5688
|
论文略读:SWE-bench: Can Language Models Resolve Real-world Github Issues?-CSDN博客 |
iclr 2024 oral reviewer评分 5668 论文引入了SWE-bench
|
论文笔记:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD-CSDN博客 |
iclr 2024 spotlight reviewer 评分 5668 介绍了(INTHE)WILDCHAT数据集
|
论文略读:X-VARS: Introducing Explainability in Football Refereeingwith Multi-Modal Large Language Model_soccernet xfoul-CSDN博客 | 用于足球犯规视频识别和解释的数据集
|
论文略读:Position: AI Evaluation Should Learn from How We Test Humans-CSDN博客 |
ICML 2025 目前AI的benchmark,大体上都准备一个庞大全面的测试集,模型答题后按准确率等各类指标打分 论文受到心理测量学(Psychometrics)自适应测试的启发,认为:
|
论文略读:Pokerbench: Training large language models to become professional poker players-CSDN博客 |
2025 AAAI 提出了 POKERBENCH ——一个用于全面评估 LLM 扑克决策能力的新基准数据集,并附带训练数据
|
论文略读:Number Cookbook: Number Understanding of Language Models and How to Improve It-CSDN博客 | 计了一个覆盖广泛的 NUPA数值理解与处理能力(Numerical Understanding and Processing Ability, NUPA) 基准测试集 |
论文略读:iNews: A Multimodal Dataset for Modeling Personalized Affective Responses to News-CSDN博客 |
arxiv 202503 论文提出iNews,这是一个全新且大规模的数据集,专为捕捉个体对真实新闻内容情感反应中的主观性而设计 |
论文略读:MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses_enzyme co-scientist: harnessing large language mod-CSDN博客 |
ICLR 2025 5668 聚焦于一个核心问题:在仅给定一个研究背景问题的前提下,LLMs是否能够自动发现化学领域中新颖且有效的研究假设? 构建了一个基准数据集,涵盖了2024年发表在《Nature》或同等级期刊上的51篇化学论文(这些论文均为2024年起在线公开)。每篇论文由化学专业博士生分为三个部分:背景问题、灵感来源、研究假设。 我们的任务是:仅给定背景问题和一个包含真实灵感来源论文的大型化学文献语料库,并在使用仅训练至2023年的LLM的条件下,尝试“重新发现”每篇论文的研究假设。 |
论文略读: Automated explanation of machine learning models of footballing actions in words-CSDN博客 |
Journal of Sports Analytics 2025 llm+可解释预期进球模型 |
论文略读: LOST IN TIME: CLOCK AND CALENDAR UNDERSTANDING CHALLENGES IN MULTIMODAL LLMS_lost in time clock and calendar-CSDN博客 |
2025 Workshop on Reasoning and Planning for LLMs 本文探索 MLLMs 处理**时间相关任务(temporal tasks)**的能力 |
论文略读:SysBench: Can LLMs Follow System Message?-CSDN博客 |
iclr 2025 366 提出了 SysBench,这是一个系统性评估LLMs对系统消息遵循能力的基准,围绕当前模型存在的三大局限进行分析:约束违规、指令误判和多轮对话不稳定性。 |
论文略读:Do Large Language Models Truly Understand Geometric Structures?-CSDN博客 |
ICLR 2025 668 提出了 GeomRel 数据集,旨在通过隔离几何问题求解过程中的核心步骤——几何关系识别,更准确地评估 LLM 对几何结构的理解能力。 |
论文略读:CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery-CSDN博客 |
提出 CS-Bench,这是首个面向计算机科学领域的多语言基准测试集(涵盖英语、中文、法语和德语),专门用于评估 LLMs 在计算机科学中的表现。 |
论文略读:DAILYDILEMMAS:REVEALINGVALUEPREFERENCES OFLLMSWITHQUANDARIESOFDAILYLIFE-CSDN博客 |
ICLR 2025 spotlight 5888 论文提出 DailyDilemmas,一个包含 1,360 个现实生活中道德困境的数据集。每个困境都提供两个可能的行动选项,并列出了每个选项涉及的相关方与人类价值观。 |
数据集笔记:SeekWorld-CSDN博客 | 提出了一项新任务:地理定位推理(Geolocation Reasoning)
|
11 大模型压缩/剪枝
论文笔记:A Simple and Effective Pruning Approach for Large Language Models-CSDN博客 |
iclr 2024 reviewer 评分 5668 引入了一种新颖、简单且有效的剪枝方法,名为Wanda (Pruning by Weights and activations)
|
论文略读:Beware of Calibration Data for Pruning Large Language Models-CSDN博客 |
2025 ICLR 3568 后训练剪枝(post-training pruning)是一种极具前景的方法,它不需要资源密集的迭代训练,仅需少量校准数据(calibration data)即可评估参数的重要性 很少系统性地探讨校准数据的作用 论文发现:
|
论文略读:Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN-CSDN博客 |
ICLR 2025 56668 论文证明:
——>提出了一种新型归一化方法:Mix-LN,该方法将 Pre-LN 与 Post-LN 结合使用于同一模型中:
|
论文略读:MIND over Body: Adaptive Thinking using Dynamic Computation-CSDN博客 |
ICLR 2025 oral 论文提出了一种方法,赋予网络自我反省(self-introspection)能力,使其能根据任务的内部表示动态调整所用参数数量,并根据输入的复杂度自适应地调整计算时间 |
论文略读:Keyframe-oriented Vision Token Pruning: Enhancing Efficiencyof Large Vision Language Models on-CSDN博客 |
202503 arxiv 论文提出了 KVTP(Keyframe-oriented Vision Token Pruning,关键帧导向视觉 token 剪枝)方法 采用软选择策略(soft selection),即从那些“相关性较低”的帧中保留少量关键 token,以保留对高层推理至关重要的语义线索 该方法既有效减少了冗余信息,又保持了时间和上下文结构的一致性 |
12 大模型+Graph
论文略读:OpenGraph: Towards Open Graph Foundation Models-CSDN博客 | ![]() |
论文略读:ASurvey of Large Language Models for Graphs_graph2text or graph2token: a perspective of large -CSDN博客 |
|
论文略读:Does Graph Prompt Work? A Data Operation Perspective with Theoretical Analysis-CSDN博客 |
ICML 2025 论文从“数据操作”视角理解图提示的理论框架,从数学上系统解释了图提示的工作机制 |
论文略读:Are Large Language Models In-Context Graph Learners? -CSDN博客 |
arxiv 202502 LLMs 并不擅长在图数据上进行 in-context 学习。即使是最先进的 LLMs,在节点分类任务中的表现也不如 GNN GNN 的消息传递机制可以被解释为一种递归的 RAG 步骤,它对每个节点及其图上下文执行查询 ![]() |
12.1 graph prompt tuning for 推荐系统
论文笔记:GPT4Rec: Graph Prompt Tuning for Streaming Recommendation-CSDN博客 |
SIGIR 2024 |
论文笔记:Integrating Large Language Models with Graphical Session-Based Recommendation-CSDN博客 | ![]() |
13 efficient ML
论文笔记:OneBit: Towards Extremely Low-bit Large Language Models-CSDN博客 |
论文提出OneBit 框架,包括全新的 1bit 层结构、基于 SVID 的参数初始化方法和基于量化感知知识蒸馏的知识迁移 |
论文笔记:SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning-CSDN博客 |
ACL 2024
|
论文略读:Not all Layers of LLMs are Necessary during Inference-CSDN博客 |
动态减少激活神经元的数量以加速LLM推理 根据输入实例动态决定推理终止时刻 |
论文略读:MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning-CSDN博客 |
过低的秩会严重限制模型学习和记忆新知识的能力,尤其在需要获取大量领域知识的任务上 oRA的关键在于使用方阵M取代LoRA的低秩矩阵A和B,以提升rank |
论文略读:LoRA+: Efficient Low Rank Adaptation of Large Models-CSDN博客 |
从理论分析了LoRA最优解必然是右矩阵的学习率大于左矩阵的学习率(数量级差距是O(n)) |
14 多模态
论文略读:AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling-CSDN博客 |
ACL 2024
|
论文略读:OneChart: Purify the Chart Structural Extraction via One Auxiliary Token-CSDN博客 |
|
论文笔记:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See-CSDN博客 |
2024 10 保持性能的同时显著降低计算复杂度 |
论文结论:From Redundancy to Relevance: EnhancingExplainability in Multimodal Large Language Models-CSDN博客 |
在浅层与深层中不同token信息流汇聚情况有所区别 |
论文略读:OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty an-CSDN博客 |
2024 CVPR 多模态大模型在生成幻觉内容时,其自注意力权重上通常具有“过度信赖”的现象
|
Irony in Emojis: A Comparative Study of Human and LLM Interpretation-CSDN博客 |
arxiv 202501
|
论文略读:Seeing the Abstract: Translating the Abstract Language for Vision Language Models-CSDN博客 |
CVPR 2025 论文提出了一种全新、无需训练的方法:Abstract-to-Concrete Translator(ACT),它可以在现有 VLM 的表示空间中,有效地将抽象导向的语言转化为具体导向语言 |
论文略读:SentiFormer: Metadata Enhanced Transformer for Image Sentiment Analysis-CSDN博客 |
ICASSP 2025 论文提出了一种用于图像情感分析的全新元数据增强型 Transformer 方法(SentiFormer)
|
论文略读:A MULTIMODAL SYMPHONY: INTEGRATING TASTE AND SOUND THROUGH GENERATIVE AI-CSDN博客 |
202503 arxiv
论文构建了一个数据集,强调味觉与音乐之间神经科学和实验心理学的关联知识 |
VisEscape:多模态智能体探索与推理能力评测新基准 |
VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms 202503 arxiv VLM+密室逃脱 |
15 幻觉
论文略读:Detecting and Mitigating Hallucinations in Multilingual Summarisation-CSDN博客 |
EMNLP 2023 论文提出了一种新的评估指标 mFACT,用于衡量非英语摘要的忠实性。
|
论文结论:GPTs and Hallucination Why do large language models hallucinate-CSDN博客 |
|
论文略读:Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Mul-CSDN博客 |
ICML 2025 把视觉 Token 当作补充性证据,在模型推理到遇到遗忘困扰的中间触发层后,通过前馈网络(FFN)让其重新“检索”所需视觉知识(即看两次) |
论文略读:No Free Lunch: Fundamental Limits of Learning Non-Hallucinating Generative Models-CSDN博客 |
ICLR 2025 15888 从学习理论的视角出发,构建了一个理论框架,旨在分析非幻觉生成模型的可学习性 研究表明:仅依赖训练数据,学习出不产生幻觉的模型在统计上是不可能的 |
论文略读:REDEEP: DETECTING RETRIEVAL-AUGMENTED HALLUCINATION GENERATION MECHANISTIC INTERPRETABILIT-CSDN博客 |
2025 iclr spotlight
|
16 moe
论文略读: Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalize-CSDN博客 |
RecSys 2020
![]() |
论文略读:GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding -CSDN博客 |
2021 ICLR 第一个将 MoE 的思想拓展到 Transformer 上的工作 |
论文略读:On the Embedding Collapse When Scaling Up Recommendation Models-CSDN博客 |
|
论文笔记:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models-CSDN博客 |
|
论文笔记:TIME-MOE: BILLION-SCALE TIME SERIES FOUNDATION MODELS WITH MIXTURE OF EXPERTS_timer moe-CSDN博客 |
提出了TIME-MOE,一个可扩展的统一架构,用于预训练更大规模、更强能力的预测基础模型,同时降低计算成本 |
论文略读:MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels-CSDN博客 | 202401 arxiv |
|
论文略:ACloser Look into Mixture-of-Experts in Large Language Models-CSDN博客 |
|
|
论文笔记 LLaMA-MoE:Building Mixture-of-Experts from LLaMAwith Continual Pre-training_llama moe论文-CSDN博客 | 2024 ACL |
|
论文笔记:PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning-CSDN博客 | 202407 arxiv | LM在持续学习过程中容易出现灾难性遗忘
|
论文笔记:MoEJetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Task_moe jetpack: from dense checkpoints to adaptive mi-CSDN博客 | Neurips 2024 | 提出了MoE Jetpack,一种将预训练密集检查点微调到MoE模型中的新方法
|
论文略读:Multimodal Instruction Tuning with Conditional Mixture of LoRA-CSDN博客 | ACL 2024 |
|
论文略读:Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large _klotski: efficient mixture-of-expert inference via-CSDN博客 | ACL 2024 | 提出了expert pruning,省空间
|
论文略读:Harder Tasks Need More Experts: Dynamic Routing in MoE Models-CSDN博客 | ACL 2024 |
论文辅助笔记:Harder Tasks Need More Experts: Dynamic Routing in MoE Models(infer.py)-CSDN博客 论文辅助笔记:Harder Tasks Need More Experts: Dynamic Routing in MoE Models (modelling_moe.py)7-CSDN博客 |
论文笔记:Interpretable Cascading Mixture-of-Experts for Urban Traffic Congestion Prediction-CSDN博客 | 2024 KDD |
|
论文笔记:Multi-Head Mixture-of-Experts-CSDN博客 | 2024 neurips | 提出了多头混合专家(MH-MoE)
|
论文笔记:Autonomy-of-Experts Model-CSDN博客 | 202501 arxiv | 论文提出了一种新的MoE范式——专家自治(AoE)
|
论文略读:Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts-CSDN博客 | TPAMI 2025 | 多模态大模型+MOE![]() |
论文笔记: MOE++: ACCELERATING MIXTURE-OF-EXPERTS METHODS WITH ZERO-COMPUTATION EXPERTS-CSDN博客 |
MOE++引入了“零计算专家”,这个机制的引入使得MOE++ MoE++还让每个Token在选择专家时参考前一层的路由路径 |
|
论文略读:Graph Mixture of Experts and Memory-augmented Routers for Multivariate Time Series Anomaly Dete_mixture of graph experts for cross-subject emotion-CSDN博客 | AAAI 2025 |
|
论文略读 Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-E-CSDN博客 | 阿里 20250205 |
|
论文略读 ST-MoE: Designing Stableand Transferable Sparse Expert Models-CSDN博客 | 稳定的MOE | |
论文略读:ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing-CSDN博客 | iclr 2025 5688 |
传统的 TopK 路由器由于以不连续、不可微的方式进行训练,限制了其性能和可扩展性 提出了 ReMoE —— 一种完全可微分的 MoE 架构,它使用 ReLU 替代常规的 TopK+Softmax 路由方式 |
论文略读:Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization-CSDN博客 | iclr 2025 5668 |
Drop-Upcycling 结合了两种看似矛盾的MOE参数初始化方法:一方面利用预训练稠密模型的知识,另一方面在统计上重新初始化部分权重 |
论文略读:Theory on Mixture-of-Experts in Continual Learning-CSDN博客 | iclr 2025 spotlight 688 |
|
论文略读: LAYERWISE RECURRENT ROUTER FOR MIXTURE-OF-EXPERTS-CSDN博客 | ICLR 2025 3668 |
在MoE中,路由器(router) 是核心组件,但目前的做法是在各层独立地对token进行分配,未能利用历史路由信息,这可能导致次优的token–专家匹配,进而引发参数利用效率低下的问题。 ——>提出了一种新的架构:用于MoE的层间循环路由器 RMoE引入了门控循环单元(GRU),在连续层之间建立路由决策的依赖关系 |
论文略读:MoLEx: Mixture of Layer Experts for Fine-tuning with Sparse Upcycling_mix of layer-CSDN博客 | ICLR 2025 568 |
将预训练模型的不同层本身作为“专家”进行条件性组合与计算
|
论文略读:Mixture-of-Agents Enhances Large Language Model Capabilities-CSDN博客 | iclr 2025 spotlight 6888 |
采用 Mixture-of-Agents(MoA)机制来汇聚多个 LLM 的优势 |
论文略读:NetMoE: Accelerating MoE Training through Dynamic Sample Placement-CSDN博客 | 2025 ICLR spotlight 66888 |
|
论文略读:Universal Model Routing for Efficient LLM Inference-CSDN博客 | arxiv 202502 |
将每个 LLM 表示为一个特征向量,其依据是该模型对一组代表性提示(prompts)的预测准确性。 基于聚类的路由(Cluster-based Routing); 基于学习的聚类映射(Learned Cluster Map)。 这些方法可以使已训练的路由器在无需重训的情况下直接使用新模型 |
17 text embedding
论文略读:Matryoshka Representation Learning-CSDN博客 |
2022 Neurips
|
论文笔记:Enhancing Sentence Embeddings in Generative Language Models-CSDN博客 |
|
论文笔记:Scaling Sentence Embeddings with Large Language Models-CSDN博客 |
2024 ACL findings
|
论文略读:Uncovering Hidden Representations in Language Models_linearity of relation decoding in transformer lang-CSDN博客 |
202502 arxiv 对于下游任务,语言模型的中间层在所有架构和任务中始终优于最后一层
|
论文笔记:Repetition Improves Language Model Embeddings-CSDN博客 |
复制一遍原本文,那么就能够让第二次出现的文本的每个token都能见到原文本所有的内容 |
18 推荐
论文略读:Defining and Supporting Narrative-driven Recommendation-CSDN博客 |
sysrec 2017
|
论文笔记:POINTREC: ATest Collection for Narrative-driven Point of Interest Recommendation-CSDN博客 |
SIGIR 2021 聚焦于一种 POI 推荐情境,其中用户的上下文需求以自然语言明确表达
|
论文笔记:Answering POI-Recommendation Questions using TourismReviews-CSDN博客 |
2021 CIKM QA+POI推荐 benchmark |
论文笔记:Large language model augmented narrative driven recommendations_large language models as narrative-driven recommen-CSDN博客 |
RecSys 2023
|
论文略读:Image is All You Need: Towards Efficient and EffectiveLarge Language Model-Based Recommender S-CSDN博客 |
202303 arxiv 为同时解决效率与有效性难题,提出一种新颖方法:使用图像替代冗长文本描述,以图像表达商品,降低 token 占用,同时保留丰富语义信息。 |
论文笔记:Text Is All You Need: Learning Language Representations for Sequential Recommendation-CSDN博客 |
2023 KDD 论文用自然语言的方式对用户偏好和商品特征进行建模
|
论文笔记:MGeo: Multi-Modal Geographic Language Model Pre-Training-CSDN博客 |
2023 sigir 情境地理上下文推荐dataset |
论文笔记:DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based Queries-CSDN博客 |
2024 neurips 提出了一项新任务:面向多层次方面查询的科学文档检索(DORIS-MAE)
发布了 DORIS-MAE 数据集,涵盖计算机科学领域中的 100 个独特复杂查询,并为每个查询配备了经过排序的相关 CS 文章摘要池 |
论文略读:ASurvey on Intent-aware Recommender Systems-CSDN博客 | 意图感知推荐系统的综述 |
论文略读:HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and -CSDN博客 |
202409arxiv |
论文略读:LLMEmb:Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation-CSDN博客 |
AAAI 2025 文本特征(如标题)捕捉物品之间语义关系,有希望成为一个无偏的物品嵌入生成器 |
论文笔记:SLMRec: Distilling Large Language Models into Small for Sequential Recommendation-CSDN博客 |
ICLR 2025 5668
——>提出轻量化模型SLMRec(参数量<1B),通过知识蒸馏对齐表征空间,并结合多任务监督信号压缩模型规模 |
论文笔记:CoLLM |
tkde CoLLM: Integrating Collaborative Embeddings into Large Language Models for Recommendation
|
论文略读: LANGUAGE REPRESENTATIONS CAN BE WHAT RECOMMENDERS NEED: FINDINGS AND POTENTIALS-CSDN博客 |
2025 ICLR oral 先进的语言模型表征与一个优秀的推荐表征空间同态,并呈现出鲁棒性与可扩展性 |
论文略读:HeterRec: Heterogeneous Information Transformer for Scalable Sequential Recommendation-CSDN博客 |
SIGIR 2025 论文提出了一种用于序列推荐的异构信息 Transformer 模型——HeterRec,其设计灵感来源于 LLM 中的 tokenization 技术。
|
19 LLM+code
论文略读:OpenRCA: Can Large Language Models Locate the Root Cause of Software Failures?-CSDN博客 |
ICLR 2025 5688 提出 OpenRCA:一个用于评估 LLMs 定位软件故障根因能力的基准数据集和评估框架 |
论文略读:CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery-CSDN博客 |
iclr 2025 5688 提出 CS-Bench,这是首个面向计算机科学领域的多语言基准测试集(涵盖英语、中文、法语和德语),专门用于评估 LLMs 在计算机科学中的表现。 |
20 VLM
论文略读:SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models-CSDN博客 |
ICLR 2025 5566 出了 SPORTU ——一个专为多层次体育推理任务设计的基准评测集。 SPORTU 包含两个核心组成部分:
|
论文略读:Should VLMs be Pre-trained with Image Data?-CSDN博客 |
2025 ICLR 5556
|
论文略读:NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization-CSDN博客 |
202502 arxiv ——>提出 NAVICLUES,一个用于图像地理定位的高质量推理数据集 灵感源自 GeoGuessr 这款热门游戏,NAVICLUES 收录了来自五位经验丰富的 YouTube 玩家超过 2000 个实例,记录了他们分析图像细节以推断位置的全过程,从而训练视觉语言模型生成类似人类专家的推理过程。 ——>提出NAVIG,一个结合视觉分析与外部知识进行分析推理的框架 借助公开地图和专家指南等工具,我们设计了一套流程,能够深入挖掘图像中的细粒度信息,并检索相关资料以进一步提高准确率。 |
论文略读:Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models-CSDN博客 |
ICLR 2025 6666 提出了 “可答性对齐(alignment for answerability)”框架,使得 Video-LLMs 能够基于输入视频:
|
论文略读: CITYANCHOR: CITY-SCALE 3D VISUAL GROUNDING WITH MULTI-MODALITY LLMS-CSDN博客 |
ICLR 2025 6668 提出了一种名为 CityAnchor 的三维视觉指定位方法,用于在城市级点云(city-scale point cloud)中定位城市物体
提出了一种多模态大语言模型(LLM)驱动的两阶段方法,包括:
|
论文略读:Long-Context Autoregressive Video Modeling with Next-Frame Prediction-CSDN博客 | 提出了长短时上下文建模
|
论文略读:VLMsasGeoGuessr Masters—Exceptional Performance, Hidden Biases, and Privacy Risks-CSDN博客 |
arxiv 202502 论文对 VLM 在地理信息识别中的能力与偏差进行了系统性研究。 发现,当前 VLM 在以下三个关键方面存在显著偏差:
|
21 对齐
论文略读:Causally Motivated Sycophancy Mitigation for Large Language Models-CSDN博客 |
iclr 2025 6666 不当的将用户偏好纳入大语言模型可能导致“逢迎性”(sycophancy)——即模型为了迎合用户偏好而牺牲输出的正确性 从结构因果模型(Structured Causal Models, SCMs)的视角进行建模与分析。指出,逢迎性的根源在于 LLM 倾向于依赖用户偏好与模型输出之间的虚假相关性(spurious correlations)。 进一步提出一种新方法:CAUSM,旨在通过挖掘关键的**因果特征(causal signature)**来缓解 LLM 的逢迎行为 |
论文略读:Personality Alignment of Large Language Models-CSDN博客 |
ICLR 2025 558 当前LLM在对齐时,通常旨在反映普遍的人类价值观与行为模式,但却常常无法捕捉到个体用户的独特特征与偏好。 |
论文略读:M3PT: A Multi-Modal Model for POI Tagging-CSDN博客 |
2023 KDD 之前的POI 标签方法忽视了 POI 图像的重要性,较少融合 POI 的文本和图像特征,导致标签预测性能不理想 |
22 LLM+数学
论文略读:Can LLMs Solve Longer Math Word Problems Better?-CSDN博客 |
ICLR 2025 3556 首次提出并系统性研究了数学推理中的上下文长度泛化能力——即模型在面对冗长叙述下仍能解决数学问题的能力。 构建了一个新的数据集:扩展版小学数学题(Extended Grade-School Math, E-GSM),该数据集包含了带有冗长叙述背景的数学文字题。 同时,提出了两个新的评估指标,用于衡量LLMs在应对这类问题时的有效性与鲁棒性。 |
23 长上下文
论文略读:Why Does the Effective Context Length of LLMs Fall Short?-CSDN博客 |
iclr 2025 6668 开源LLMs的有效上下文长度常常远低于其训练长度,通常不超过一半 本研究将这一局限归因于:在预训练与后训练阶段,模型内部形成了相对位置的左偏频率分布,这一分布妨碍了模型有效捕捉远距离信息的能力。 ——>提出了一种新方法:Shifted Rotray Position Embedding(STRING),通过在推理阶段对已训练好的位置进行平移,以覆盖原本无效的位置,从而在不增加额外训练成本的前提下,提升模型在长上下文中的表现能力。 |
24 效率
论文略读: CUT YOUR LOSSES IN LARGE-VOCABULARY LANGUAGE MODELS-CSDN博客 |
ICLR 2025 oral 随着语言模型(LLMs)的规模不断增长,其词表规模也随之扩大
论文提出了 Cut Cross-Entropy(CCE),一种在不将完整 logits 写入全局内存的情况下计算交叉熵损失的方法 |
论文笔记:Knowing When to Stop: Dynamic Context Cutoff for Large Language Model-CSDN博客 |
arxiv 202502 论文 提出了一种新方法,称为动态上下文截断(Dynamic Context Cutoff),它使得 LLM 能够判断在任务中何时已获取充足信息,从而主动停止继续处理剩余输入。 |
25 推理
论文略读:LIMO: Less is More for Reasoning-CSDN博客 |
202502 arxiv 在数学推理领域,论文提出的LIMO仅用 817 条精心设计的训练样本,借助简单的监督微调,就全面超越了使用十万量级数据训练的主流模型 |
论文略读:Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries-CSDN博客 |
模型如何在不同步骤生成不同答案的整体过程; 通过“早期解码””(early decode)分析注意力机制(attention)和多层感知机(MLPs)在不同层级上的输出,观察主题词和答案词的 logits 是如何随层变化的,发现 语言模型在中间层使用注意力机制复制主题信息; 随后 MLP 模块会提升所有可能答案的概率; 在较晚层,注意力机制与 MLP 联合对之前已经生成的答案进行压制(suppression) |
论文略读:Efficient Reasoning for LLMs through Speculative Chain-of-Thought-CSDN博客 |
202504 arxiv 论文提出SCoT(推测性思维链)
|
论文略读:OmniKV: Dynamic Context Selection for Efficient Long-Context LLMs-CSDN博客 |
2025 ICLR 核心思想:在单个生成步骤内,被模型高度关注的(注意力得分高的)Token 集合,在不同的 Transformer 层之间表现出高度的相似性 出OmniKV |
论文略读:Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness-CSDN博客 |
202505 arxiv
|
26 模型编辑
论文略读:Knowledge is a Region in Weight Space for Finetuned Language Models-CSDN博客 |
EMNLP 2023
|
论文略读:Decomposing and Editing Predictions by Modeling Model Computation-CSDN博客 |
ICML 2024
|
论文略读: Overcoming Generic Knowledge Loss with Selective Parameter Updat-CSDN博客 |
2024 cvpr 如何持续地更新基础模型以适应新知识,同时保持其原有能力。 论文提出了一种新颖的方法:不对所有参数进行统一更新,而是将更新局部化,仅作用于与当前学习任务相关的稀疏参数子集。 |
27 模型合并
论文笔记:EDITING MODELS WITH TASK ARITHMETIC-CSDN博客 |
2023 ICLR 任务向量的起源 |
论文Composing Parameter-Efficient Module with Arithmetic Operation |
NEURIPS 2023 任务向量+Lora adpter |
论文略读:TIES-MERGING: Resolving Interference When Merging Models-CSDN博客 |
neurips 2023 |
论文略读:Arcee’s MergeKit: A Toolkit for Merging Large Language Models-CSDN博客 |
emnlp 2024 提出了 MergeKit ——一个用于执行社区提出的模型融合策略的统一库。MergeKit 兼容 内存受限的 CPU 以及 加速的 GPU 设备 |
论文笔记LANGUAGE MODELS ARE HOMER SIMPSON! SafetyRe-Alignment of Fine-tuned Language Models through Tas-CSDN博客 |
ACL 2O24 论文提出了一种简单有效的安全再对齐方法——RESTA RESTA 的核心思想非常简洁:将一个“安全向量”以算术加法的形式直接加到已失去安全性的模型权重上,从而实现安全性恢复。 |
论文略读:Localizing Task Information for Improved Model Merging and Compression-CSDN博客 |
ICML 2024 提出了一种称为 Consensus Merging(共识合并) 的模型合并方法,利用构造的掩码来去除灾难性和自私权重,保留对多个任务都有用的“通用权重”。 |
论文笔记:Knowledge Fusion of Large Language Models |
ICLR 2024
|
论文笔记:Parameter Competition Balancing for Model Merging-CSDN博客 |
neurips 2024
|
论文笔记Language and Task Arithmetic with Parameter-Efficient Layers |
MRL 2024 任务向量+多语言微调 |
论文笔记:MetaGPT |
emnlp 2024 自适应找任务向量相加的λ |
论文笔记:EMR-MERGING: Tuning-Free High-Performance Model Merging-CSDN博客 |
2024 neurips |
论文略读:Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging-CSDN博客 |
neurips 2024
|
论文略读:Model Merging and Safety Alignment: One Bad Model Spoils the Bunch-CSDN博客 |
EMNLP 2024
|
论文笔记:Tuning Language Models by Proxy_论文里的proxy-CSDN博客 |
COLM 2024
LLaMA-2-base 13B+(LLaMA-2-chat 7B−LLaMA-2-base 7B) |
论文略读:OnGiant’s Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion-CSDN博客 |
neurips 2024 尽管 logit 算术方法展现出一定潜力,但与对大模型直接微调相比,其性能仍存在明显差距
|
论文略读: Howto Merge Your Multimodal Models Over Time?-CSDN博客 |
CVPR 2024
|
论文略读:PERSONALIZED PIECES: Efficient Personalized Large Language Models through Collaborative Effort_persllm: a personi铿乪d training approach for largel-CSDN博客 |
EMNLP 2024
|
论文笔记:Task Arithmetic+ Automatic Speech Recognition |
EMNLP 2024 |
论文略读:Representation Surgery for Multi-Task Model Merging-CSDN博客 |
ICML 2024 提出了一种表示修正(representation surgery)方法,称为 Surgery,用于减少合并模型中的表示偏差。 |
论文略读:Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch-CSDN博客 | |
论文略读:Towards Modular LLMs by Building and Reusing a Library of LoRAs-CSDN博客 |
ICML 2024 基于多任务数据构建一个高效的适配器库,并设计了在该库中实现零样本(zero-shot)和有监督任务泛化的路由机制 |
论文笔记:任务向量+跨语言迁移 EACL 2024 |
EACL 2024 |
论文略读:Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch-CSDN博客 |
ICML 2024
|
论文略读:REMEDY: RECIPE MERGING DYNAMICS IN LARGE VISION-LANGUAGE MODELS_recipe是在哪个论文剔除-CSDN博客 |
ICLR 2025 提出了REcipe MErging DYnamics(REMEDY),一个针对 LVLM 的模型合并新范式,解决传统视觉模型合并方法的局限性 |
论文笔记:任务向量+信息检索 SIGIR 2025 | ![]() |
论文笔记 Model Merging in Pre-training of Large Language Models |
202505 arxiv
|
论文略读:Mitigating Catastrophic Forgetting in Language Transfer via Model Merging_mitigating catastrophic forgetting in retrieval-au-CSDN博客 | 论文基于**持续学习(continual learning)**的思想,提出了一种新的语言适配方法:Branch-and-Merge(BaM)
|
论文笔记:Come Together, But Not Right Now |
|
论文笔记:理论证明任务向量有效性 |
WHEN IS TASK VECTOR Provably EFFECTIVE FOR MODEL EDITING? A GENERALIZATION ANALYSIS OF NONLINEAR TRANSFORMERS ICLR 2025 ORAL 理论证明了 |
论文笔记:LED-Merging |
ACL 2025 定位+选举+解耦冲突,得到互不干扰,互相分工明确的神经元向量,以进行安全有效的融合 |
更多推荐
所有评论(0)