目录

1、多模态大语言模型的基础

1.1、长短期网络结构(LSTM)

1.2、自注意力机制

1.3、基于Transformer架构的自然语言处理模型 

1.4、多模态嵌入概述

多模态嵌入关键步骤

多模态嵌入现状

1.5、TF-IDF

TF-IDF的概念

TF-IDF的计算公式

TF-IDF的主要思路

TF-IDF的案例

2、训练和微调多模态大语言模型(MLLM)

2.1、训练大模型架构

2.2、训练大模型深度学习的方法

对比学习 (CLIP, ALIGN)

掩码语言模型(MLM)

视觉问答(VQA)预训练

视觉与语言预训练(VLP)

2.3、微调大模型

面向特定任务的模型微调适配

联合提示学习的模型微调适配

基于适配器网络的模型微调适配

3、推理部署大模型

3.1、模型压缩

3.2、推理引擎

3.3、服务部署

4、MLLM 在视觉语言任务中的应用

4.1、图像字幕与 VQA

4.2、视觉叙事与场景理解

4.3、MLLM 在 Cross-Modal 检索和搜索中的应用

5、突出的多模态大语言模型案例研究

5.1、图片生成

5.2、代码生成

5.3、搜索与信息检索

5.4、检索增强生成 (RAG)

6、道德考量与负责任的人工智能

6.1、大模型在应用中衍生的安全风险

用户过度依赖大模型的生成内容

恶意攻击下的安全风险

后门攻击带来的恶意输出

大模型访问外部资源时引发的安全漏洞

6.2、大模型的安全对齐训练

基于反馈的安全对齐技术

大模型可信增强技术

7、常用的大模型训练数据集


1、多模态大语言模型的基础

1.1、长短期网络结构(LSTM)

1. LSTM通过复杂的门控机制比标准RNN更有效地捕捉长期依赖性。
2. LSTM在机器翻译、语音识别和文本摘要等NLP任务中取得了特别的成功。
3. RNN和LSTM在NLP领域发挥了关键作用,是许多先进模型的基础架构。
4. 它们处理序列数据和捕捉时间依赖性的能力对提高多种语言相关任务的性能至关重要。
5. 尽管最近的Transformer架构在许多应用中超越了RNN和LSTM,但这些循环模型的基本原理继续影响现代NLP系统的设计。

1.2、自注意力机制

  • Query可以是当前正在翻译的目标语言单词的嵌入向量。
  • Key和Value可以是源语言句子中每个单词的嵌入向量。
  • 通过计算Query与每个Key的相似度,模型可以确定在翻译当前目标语言单词时,应该关注源语言句子中的哪些单词。
  • 然后,模型根据注意力权重对Value进行加权求和,得到当前目标语言单词的上下文表示,用于预测目标语言单词。

自注意力机制的核心在于,它可以通过学习Query、Key、Value的表示,自动地计算出序列中每个位置与其他位置之间的依赖关系,并根据这些依赖关系对Value进行加权求和。这使得模型能够突破距离限制,捕捉到长距离的依赖关系,从而更好地理解和处理序列数据。

1. Transformer架构的核心是多头注意力机制,它允许模型同时关注不同位置的不同表示子空间的信息。
2. Transformer由编码器和解码器组成,每个都包含多个相同的层,编码器层包含多头自注意力机制和位置全连接前馈网络,解码器层还包含对编码器输出的多头注意力。
3. BERT模型基于Transformer架构,通过预训练从无标签文本中学习深度双向表示,使用掩码语言模型和下一句预测两个无监督任务。
4. 预训练的BERT模型可以通过添加一个输出层进行微调,适用于多种NLP任务,如问答、情感分析和命名实体识别。
5. BERT的双向性得益于Transformer的自注意力机制,能够更全面地理解语言,为需要深入理解语义和上下文的任务提供了优势。

1.3、基于Transformer架构的自然语言处理模型 

基于Transformer架构的自然语言处理模型
  • 输出概率(Output Probabilities):模型的输出概率,可以选择Softmax或Linear两种方式。

  • 模型主体由N个相同的层(Nx)组成,每一层包含:

    • Feed Forward:前馈神经网络层
    • Add & Norm:残差连接和层归一化
    • Multi-Head Attention:多头注意力机制
    • Add & Norm:残差连接和层归一化
    • Masked Multi-Head Attention:带掩码的多头注意力机制(用于解码器)
  • 位置编码(Positional Encoding):为输入序列的每个位置添加位置信息。

  • 输入嵌入(Input Embedding)和输出嵌入(Output Embedding):将输入和输出序列中的词转换为稠密向量表示。

  • 输入(Inputs)和输出(Outputs):模型的输入和输出序列。

1.4、多模态嵌入概述

多模数据嵌入

多模态嵌入关键步骤

1. 多模态编码:不同输入模态首先通过专门的编码器处理,文本数据通过分词和嵌入技术如word2vec或上下文嵌入方法,视觉数据则通过卷积神经网络或视觉变换器提取特征。
2. 维度对齐:不同模态的嵌入通常维度不同,关键步骤是将这些嵌入投影到一个共同的维度空间,通常通过可学习的线性变换或更复杂的神经网络层实现。
3. 联合表示学习:对齐的嵌入进一步处理以创建真正的联合表示,通常涉及注意力机制或融合层,使模型能够学习模态间的复杂交互。
4. 对比学习:许多最先进的多模态大型语言模型在训练期间采用对比学习技术,鼓励模型为语义相关的文本-图像对产生相似的嵌入,同时在嵌入空间中将不相关的对分开。
5. 针对下游任务的微调:联合嵌入随后在特定的下游任务上进行微调,使模型能够适应特定应用的表示,同时保留预训练期间获得的跨模态理解。

多模态嵌入现状

1. 多模态嵌入在多模态大型语言模型(MLLMs)中的有效性体现在其在跨模态理解任务上的表现,如图像-文本检索和视觉问答。
2. 多模态嵌入能够捕捉不同模态间概念的细微关系,使模型能进行类似人类的推理任务,例如视觉常识推理和创造性描述图像。
3. 创建有效的多模态嵌入面临挑战,包括处理模态间的语义差距、处理视觉和文本数据的不同统计特性,以及确保嵌入在不同任务和领域中具有良好的泛化能力。
4. 研究者正致力于开发更复杂的嵌入技术、探索如何整合更多模态以及提高高维表示的可解释性。
5. 交叉注意力层是MLLMs中实现文本和图像交互的关键组件,它允许模型在处理一种模态信息时关注另一种模态的相关部分,从而增强模型对多模态输入的理解和推理能力。

1.5、TF-IDF

TF-IDF的概念

TF-IDF是一种常用于信息检索和文本挖掘领域的统计方法,用于评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF是Term Frequency-Inverse Document Frequency的缩写,由两部分组成:

  1. Term Frequency (TF,词频):

    • TF指的是某个给定的词语在该文件中出现的频率。
    • 这个数字通常会被归一化(normalized),以防止它偏向长的文件。(因为一个词在长文件中出现的次数通常会比在短文件中出现的次数多)
    • 归一化的方法有多种,最简单的一种就是直接用该词语在文件中出现的次数除以该文件包含的总词语数。
  2. Inverse Document Frequency (IDF,逆文档频率):

    • IDF是一个词语普遍重要性的度量。
    • 某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。
    • 由于使用了对数,如果包含该词语的文件数目越少,IDF的值越大,则说明该词语具有很好的类别区分能力。

TF-IDF的计算公式

TF-IDF = TF * IDF

TF-IDF的主要思路

  • 如果某个词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
  • TF-IDF实际上是:一个词语在一个文件中出现的频率和它在整个语料库中出现的频率的反比。
  • 某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。

TF-IDF在文本挖掘,特别是文本分类和聚类中有着广泛的应用。它可以用来计算词语在文档中的权重,进而可以用于特征选择、相关性计算等任务。同时,TF-IDF也常作为后续算法(如机器学习算法)的输入。

TF-IDF的案例

文档1:

  • the: 2
  • cat: 1
  • sat: 1
  • on: 1
  • mat: 1

文档2:

  • the: 2
  • dog: 1
  • lay: 1
  • on: 1
  • rug: 1

现在,让我们计算每个词的IDF值。我们有两个文档,所以:

  • 对于出现在两个文档中的词(如 "the", "on"),其IDF值为: log(2/2) = 0
  • 对于只出现在一个文档中的词,其IDF值为: log(2/1) ≈ 0.301

所以,每个词的IDF值为:

  • the: 0
  • cat: 0.301
  • sat: 0.301
  • on: 0
  • mat: 0.301
  • dog: 0.301
  • lay: 0.301
  • rug: 0.301

最后,我们可以计算每个词在每个文档中的TF-IDF值,即TF * IDF:

文档1:

  • the: 2 * 0 = 0
  • cat: 1 * 0.301 ≈ 0.301
  • sat: 1 * 0.301 ≈ 0.301
  • on: 1 * 0 = 0
  • mat: 1 * 0.301 ≈ 0.301

文档2:

  • the: 2 * 0 = 0
  • dog: 1 * 0.301 ≈ 0.301
  • lay: 1 * 0.301 ≈ 0.301
  • on: 1 * 0 = 0
  • rug: 1 * 0.301 ≈ 0.301

可以看到,虽然 "the" 在每个文档中出现的频率最高,但它的TF-IDF值为0,因为它在所有文档中都出现,没有很好的区分能力。相比之下,像 "cat", "dog" 这样的词,虽然频率不高,但因为它们只在特定的文档中出现,所以TF-IDF值较高,在区分文档方面有更大的作用。

这个简化的例子展示了TF-IDF的基本原理。在实际应用中,还会进行一些额外的处理,如词干提取、去除停用词等,以提高TF-IDF的效果。

2、训练和微调多模态大语言模型(MLLM)

2.1、训练大模型架构

端到端自适应分布式训练架构

深度学习训练系统架构,主要包含两大部分:深度学习算法和算力平台。

深度学习算法部分展示了一个典型的卷积神经网络(CNN)的结构和训练流程

算力平台是支撑深度学习算法高效运行的硬件基础,包括:

  • GPU:图形处理器,提供高并行计算能力
  • XPU:专用的AI加速芯片
  • DCU:分布式训练的通信单元
  • NPU:神经网络处理器

此外,图中还展示了:

  • 网络剪枝和量化等深度学习模型压缩方法,用于加速推理
  • 异步流水线执行,用于在训练时提高硬件利用率
  • AllReduce等分布式训练框架,用于多卡并行训练

2.2、训练大模型深度学习的方法

对比学习 (CLIP, ALIGN)

CLIP和ALIGN是对比学习的两个实例,它们通过联合嵌入学习图像和文本的对应关系,实现零样本学习。
1. 对比学习的基本概念是训练模型区分相似和不相似的数据对,对于多模态语言模型(MLLMs)而言,通常涉及将文本和图像对齐,同时区分不匹配的对。
2. 幻觉增强对比学习方法引入了幻觉概念,通过生成额外的合成数据点来增强对比学习过程,旨在提高模型在零样本场景下的鲁棒性和泛化能力。
3. 对比数据合成技术如Img-Diff通过合成新数据点来提高对比学习的质量,专注于提升多模态数据的质量,这对于高效训练高性能MLLMs至关重要。
4. 对比学习常与其他技术如掩码语言建模和视觉问答结合,以增强模型对多模态数据的理解,构建能够处理跨不同模态的广泛任务的稳健模型。

掩码语言模型(MLM)

掩码语言模型(MLM)扩展到多模态掩码建模,要求模型预测掩码的单词和图像区域,以学习文本和图像的联合表示。

视觉问答(VQA)预训练

1. 视觉问答(VQA)是多模态模型中的关键任务,模型通过预训练任务如VQA或图像描述进行学习。
2. VQA预训练的最新进展在特定领域如医学影像中取得了显著成功,通过使用单模态和多模态对比损失来增强模型理解复杂视觉和文本交互的能力。
3. 通过检索增强方法,结合大型数据集中的额外上下文信息,进一步提升了VQA系统的性能。
4. 由于多样化多模态数据集的有限性,特别是在医学VQA等专业领域,挑战依然存在,需要创新的数据增强和迁移学习方法以确保模型在不同应用中的稳健性能。
5. 持续的研究致力于改进这些预训练技术并扩展数据集的可用性,以提高VQA模型在不同情境下的多样性和准确性。

视觉与语言预训练(VLP)

1. 视觉-语言预训练(VLP)策略对于开发稳健的多模态模型至关重要。
2. 这些策略包括在多模态环境中进行图像-文本匹配、掩码语言建模和下一句预测等多样化任务的预训练。
3. UNITER、ViLBERT和OSCAR等模型通过在双编码器架构中整合跨模态融合,提升了多模态推理能力。
4. VLP策略的最新进展解决了联邦学习环境中异质性问题,特别是在生物医学应用等专业领域。
5. 持续的研究正在探索创新的预训练策略,旨在进一步提升VLP模型理解和推理多模态数据的能力和效率。

2.3、微调大模型

面向特定任务的模型微调适配

  • 微软的 UniLM (Unified Language Model) 模型:它采用了预训练和微调的范式。首先在大规模无标注语料上进行预训练,然后在特定的 NLP 任务上进行微调,如情感分析、问答、文本摘要等。通过微调,UniLM 在多个 NLP 任务上取得了显著的性能提升。

  • 谷歌的 BERT (Bidirectional Encoder Representations from Transformers) 模型:BERT 在大规模无标注语料上进行预训练后,可以针对特定的 NLP 任务进行微调。例如,在 GLUE (General Language Understanding Evaluation) 基准测试中,BERT 通过微调在多个任务上取得了当时的最佳性能。

联合提示学习的模型微调适配

  • OpenAI 的 GPT-3 (Generative Pre-trained Transformer 3) 模型:GPT-3 展示了令人印象深刻的 few-shot 学习能力。通过设计适当的提示模板,GPT-3 可以在很少或没有标注数据的情况下完成各种 NLP 任务,如问答、文本生成、翻译等。这种提示学习的方法大大降低了针对特定任务进行微调的需求。

  • 斯坦福大学的 CoT (Chain-of-Thought) 提示:研究人员发现,通过在提示中引入推理链,可以显著提高大语言模型在复杂推理任务上的性能。这种提示学习的方法已经在常识推理、数学问题解答等任务上取得了很好的效果。

基于适配器网络的模型微调适配

  • Google Research 的 AdapterFusion:这是一种基于适配器的多任务学习方法。每个任务都有自己独立的适配器层,而主干网络的参数在所有任务之间共享。这种方法允许模型在不同任务之间快速切换,同时避免了灾难性遗忘的问题。

  • Facebook AI 的 MAD-X (Multitask Adaptation for Cross-lingual Transfer):这是一种用于跨语言迁移学习的适配器方法。通过在预训练的多语言模型上添加语言特定的适配器层,MAD-X 可以有效地将知识从高资源语言迁移到低资源语言,在跨语言的 NLP 任务上取得了很好的性能。

3、推理部署大模型

可以从模型压缩、推理引擎、 服务部署三个关键环节,开展全方位的协同优化,在降低时延提升用户体验的同时,最大化提升服务吞吐,做到低时延、高吞吐。

3.1、模型压缩

  • 模型稀疏化
  • 权重矩阵分解
  • 模型参数共享
  • 蒸馏
  • 量化

3.2、推理引擎

1.自动计算图融合优化

以非侵入的方式自动匹配高性能融合算子,通过降低算子数量、减少访存次数,获得自动化推理加速能力。

2.自动混合并行推理

通过自动感知部署硬件的存储、带宽、算力 等特性,对模型进行自适应切分,将大模型切分到多个部署硬件上, 进行分布式并行推理,尽可能减少卡间通信和跨机通信数据量,从而实现如百亿、千亿参数模型推理部署

3.3、服务部署

4、MLLM 在视觉语言任务中的应用

4.1、图像字幕与 VQA

1. 图像标注和视觉问答(VQA)领域结合了计算机视觉和自然语言处理(NLP),通过多模态大型语言模型(MLLMs)取得了显著进步。

关键进展包括以下技术:
• OSCAR(对象-语义对齐预训练):在预训练期间将对象标签与文本描述对齐,以增强字幕生成。这导致了更好的对象识别和语义丰富的字幕。
• VIVO(视觉词汇预训练):引入了一套视觉概念的词汇,使模型能够对训练期间未见过的新颖对象进行字幕描述,这对于现实世界的应用至关重要。
• 密集字幕:一种新颖的方法,为图像的不同部分生成特定区域的字幕,对于详细理解图像和检索非常有用。
• 生成对抗网络(GANs):通过利用对抗性训练来改进字幕的流畅性和连贯性。
• 元学习方法:使MLLMs能够快速适应新任务,即使数据很少也能提高各种任务的泛化能力。

 
Applications of Image Captioning and VQA


2. 图像标注技术通过深度学习和大规模图像-文本数据集训练,如MSCOCO和Flickr,实现了丰富且准确的图像描述。
3. VQA领域要求系统对图像内容提出的问题给出准确答案,MLLMs通过多模态架构和知识增强模型提升了VQA任务的性能。
4. MLLMs在图像标注和VQA中的应用扩展到了辅助技术、自动驾驶系统、医疗成像和内容审核等多个领域,提高了机器对视觉数据的理解和响应能力。
5. MLLMs在现实世界问题中的应用,如为视障人士提供实时音频描述、增强自动驾驶车辆的环境感知能力、辅助医疗诊断报告的生成和内容审核的效率,展示了其在视觉-语言任务中的巨大潜力。

4.2、视觉叙事与场景理解

1. 多模态大型语言模型(MLLMs)结合视觉和文本信息处理,对AI在视觉和文本任务中的处理方式产生了深远影响。
2. 视觉叙事技术已从简单的对象识别发展到更复杂的模型,能够结合视觉语义和上下文信息生成连贯的叙述。
3. MLLMs在娱乐、自动驾驶、增强现实、机器人技术、内容生成等领域发挥关键作用,提供生成、理解和操纵多模态数据的能力。
4. MLLMs通过分析图像或视频序列,能够为游戏和媒体自动创造动态故事线,增强自动驾驶系统对3D环境的解读能力,以及在AR应用中根据用户交互生成动态叙述。
5. 未来MLLMs的发展方向包括提高实时处理能力、增强模型可解释性以及降低在资源受限环境中的计算成本。

4.3、MLLM 在 Cross-Modal 检索和搜索中的应用

1. 跨模态检索和搜索是指基于一种模态(如图像或音频)的查询,从另一种模态(如文本)中检索相关信息。
2. 多模态大型语言模型(MLLMs)通过理解并关联不同模态,展示了在处理跨模态检索复杂性方面的卓越能力。
3. MLLMs利用多模态变换器双编码器架构和自监督学习来管理不同类型数据之间的关系,例如CLIP和DALL-E等视觉语言模型能够将图像映射到描述性文本,并反之亦然。
4. MLLMs在跨模态检索中的应用包括图像-文本检索、视频-音频-文本检索、生成性跨模态检索、多语言和跨语言检索、跨模态音乐检索、讲座视频检索、医疗领域的基于内容的图像检索以及AR/VR中的交互式搜索。
5. 尽管MLLMs在跨模态检索方面取得了进展,但仍面临处理特定领域数据、实时系统中的可扩展性以及提高检索结果准确性和上下文相关性的挑战。未来的发展方向包括个性化检索系统的增强和跨模态推理能力的探索。

5、突出的多模态大语言模型案例研究

面向生成任务的多模态大模型 面向生成任务的多模态大模型能够实现文本、图片、视频、音频、
3D、分子结构等多种模态内容的生成应用。目前常用的方法主要是基于序列生成模型 扩散模型 (diffusion models )。

5.1、图片生成

市场上主流的图片生成是基于扩散模型,扩散模型的工作原理,是通过连续添加高斯噪声来破坏训练数据, 然后通过反转这个噪声过程,来学习恢复数据。扩散模型的一个代表 性方法 LDM[77],它先压缩图像的像素信息来获取图像对应的隐特征 表达,再采用扩散模型来建模图像隐特征分布。

1. Midjourney是领先的AI艺术生成器,擅长创作视觉震撼和高度创意的图像,尤其擅长处理抽象或富有想象力的提示。

2. DALL-E3通过与ChatGPT的整合,提高了用户交互体验,能够准确理解复杂文本提示,并生成多种风格的图像,适用于广告、营销和媒体制作等行业。

3. Stable Diffusion作为开源文本到图像模型,因其灵活性和可扩展性而广受欢迎,可在消费级硬件上运行,适用于数字艺术创作和AI研究。

4. Imagen是Google开发的先进文本到图像扩散模型,Imagen 使用了通用语言大模型 T5 模 型直接编码文本信息,然后直接用该文本编码来生成图像;同时, Imagen 发现基于 T5 模型提取的文本特征生成的图像比基于 CLIP 模型的图像细节准确度更高。

Imagen[79]模型架构图


5. Flux.1专注于超高清图像生成和编辑,提供交互式创意和高级反馈循环,适用于需要高精度视觉表现的行业,如时尚设计和建筑可视化。

5.2、代码生成

1. AI技术,特别是多模态大型语言模型(MLLMs),已经革新了软件开发过程,提高了代码编写、重构和理解的效率。
2. GitHub Copilot、Amazon CodeWhisperer、Tabnine、Replit Ghostwriter、JetBrains AI Assistant、Codeium、Cursor、Bolt.new和Cline等工具通过实时代码建议、自动生成和调试功能,增强了开发者的生产力。
3. 这些工具支持多种编程语言和集成开发环境(IDEs),并专注于提高代码质量和安全性,同时简化了开发流程。
4. Bolt.new和Cline等平台通过集成先进的AI模型,提供了从代码生成到项目部署的全栈开发环境,尤其适合快速原型设计和项目搭建。

5.3、搜索与信息检索

1. Google Lens通过计算机视觉和机器学习技术,实现了从图片中直接搜索信息的功能,增强了图像的上下文理解,为用户提供了更丰富、相关的信息。
2. Bing Visual Search利用深度学习和多模态数据处理,允许用户通过图片实时搜索网络,提高了搜索的准确性和上下文意识。
3. You.com是一个多模态搜索引擎,它将AI功能集成到平台中,支持文本、图片和视频的搜索,强调用户控制和隐私。
4. Perplexity是一个AI驱动的搜索引擎,它利用自然语言理解(NLU)提供更直观的搜索结果,能够直接回答复杂查询。
5. MARVEL模型擅长在大型非结构化数据集中基于视觉和文本输入执行密集检索任务,适用于电商等行业。
6. InteR框架通过在传统搜索引擎和大型语言模型之间创建反馈循环,改善了搜索结果的呈现格式,适用于法律研究、学术工作和医学信息检索。
7. SPECTER模型通过创建高质量的文档嵌入来增强学术搜索,帮助研究人员发现与他们工作相关的学术论文。

5.4、检索增强生成 (RAG)

1. RAG技术结合了基于检索的系统和大型语言模型的生成能力,提高了信息的准确性和相关性。
2. Pinecone是一个优化了高效相似性搜索的向量数据库,2023年更新后更适用于大规模RAG工作负载。
3. LangChain是一个框架,简化了LLMs与外部数据源的集成,提高了RAG系统的开发效率和灵活性。
4. Chroma是一个开源的嵌入式数据库,专为构建RAG应用设计,简化了RAG系统的开发。
5. Vespa是一个支持RAG功能的开源大数据服务引擎,适用于需要快速查询大规模数据集的行业。
6. Weaviate是一个开源向量数据库,支持RAG系统,通过结合基于向量的搜索和符号推理,提高了复杂RAG应用的准确性。
7. OpenAI的ChatGPT Retrieval Plugin允许ChatGPT实时访问外部数据源,增强了其RAG能力。
8. HuggingFace的FAISS是一个广泛使用的库,用于高效相似性搜索和密集向量的聚类。
9. Qdrant是一个专为RAG应用优化的向量数据库,提供了高性能的搜索和检索能力。
10. Speculative RAG框架通过引入草稿机制,允许模型生成多个版本的响应,提高了生成内容的准确性和相关性。

6、道德考量与负责任的人工智能

6.1、大模型在应用中衍生的安全风险

用户过度依赖大模型的生成内容

若用户盲目信任模型,会误以为这些“幻觉”输出是可信的,从而导致决策时遗漏关键信息,缺少批判性思考。在医学诊断、法律意见等需要高精度的领域,这种盲目信赖会带来巨大风险。

恶意攻击下的安全风险

如果攻击者完全掌握模型,可能会实施更危险的“白盒攻击”。数据重构攻击使攻击者能恢复模型的训练数据,包 括其中的敏感信息如个人医疗记录,对个人隐私和数据所有权构成威胁。而指令攻击则利用模型对措辞的高度敏感性,诱导其产生违规或偏见内容,违反原安全设定。

后门攻击带来的恶意输出

比如在 ChatGPT 的强化学习阶段,在奖励模型中植入后门,使攻击者能够通过控制后 门来控制 ChatGPT 输出。此外,后门攻击具有可迁移性。通过 利用 ChatGPT产生有效的后门触发器,并将其植入其他大模型,这为攻击者创造了新的攻击途径。因此,迫切需要研究鲁棒的分类器和其他防御策略来对抗此类攻击

大模型访问外部资源时引发的安全漏洞

以自 主智能体 AutoGPT 为例,其结合了众多功能,表现出高度的自主性和复杂性。这种设计使其在缺乏人工监管时展现出无法预测的行为模式,甚至在某些极端情况下编写潜在的毁灭性计划。因此,对于大模型与外部资源的交互,需要特别关注并采取严格的安全策略。

6.2、大模型的安全对齐训练

基于反馈的安全对齐技术

基于人类反馈的安全对齐技术已逐渐,成为当下大模型安全研究的主流技术。其训练过程主要包括奖励模型 训练和生成策略优化两个子阶段。奖励模型训练阶段中,人类对模型 生成的多条不同回复进行评估,这些回复两两组合,由人类确定哪条 更优,生成的人类偏好标签使奖励模型能学习并拟合人类的偏好。在生成策略优化阶段,奖励模型根据生成回复的质量计算奖励,这个奖励作为强化学习框架中的反馈,并用于更新当前策略的模型参数,从而让模型的输出更符合人类的期望。

DeepMind 使用 RLHF 技术,通 过从人类反馈中学习来构建更有用、更准确和更安全的对话智能体 Sparrow [168]。Anthropic 公司提出的 Claude 模型则采用了 RLAIF(RL from AI Feedback)技术 [169],该技术使用预先训练的模拟人类偏好的打分模型,在强化学习过程中自动对数据进行排序,从而减少对人类反馈的依赖。

大模型可信增强技术

在训练的过程中,模型可通过两个方面增加可信度。

  • 首先是对抗训练,通过提升模型对输入扰动的鲁棒性增强 模型可信度。对抗性样本是针对大模型的输入做出微小改动,使得大模型的输出发生误判。对抗性训练通过在训练数据中引入这些样本, 迫使大模型学习更具鲁棒性的特征,从而减少对抗性攻击的影响,并且提升大模型的泛化能力。
  • 其次是知识融入训练,即利用知识引导模 型训练从而降低模型出现幻觉的可能性。结合知识图谱的模型训练是 典型的知识融入训练方法,通过在大模型训练时引入知识图谱,如将知识图谱中的三元组加入到模型的训练过程中,用三元组中的知识引 导模型的训练,促使大模型沿着具有正确知识的方向收敛。

7、常用的大模型训练数据集 

 

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐