本文总结了大模型领域常用的专业词汇解释,并分类进行了整理,仅供参考,如下:


1、模型架构
中文名称 英文名称 名词解释
大语言模型(LLM) Large Language Model (LLM) 基于深度学习的大规模神经网络模型,通常采用Transformer架构,通过大规模数据集训练生成高质量文本。
Transformer架构 Transformer Architecture 采用自注意力机制的神经网络架构,高效处理序列数据的长距离依赖关系,成为NLP主流架构。
循环神经网络(RNN) Recurrent Neural Network (RNN) 处理序列数据的神经网络,但存在梯度消失或爆炸问题,难以捕捉长期依赖。
长短期记忆网络(LSTM) Long Short-Term Memory (LSTM) 改进的RNN,通过门控机制解决梯度消失问题,增强长期依赖捕捉能力。
卷积神经网络(CNN) Convolutional Neural Network (CNN) 用于图像处理的神经网络,通过卷积操作提取特征,也可用于文本分类等其他领域。
多头注意力 Multi-Head Attention Transformer中的机制,将注意力分解为多个“头”,学习输入的不同特征以提高表现力。
位置编码 Positional Encoding 为Transformer提供序列位置信息的编码方式,弥补其无序列记忆能力的缺陷。
自注意力机制 Self-Attention Mechanism 允许序列中每个元素关注其他元素的注意力机制,帮助捕捉长距离依赖关系。
编码器-解码器架构 Encoder-Decoder Architecture 序列到序列任务的通用架构,编码器将输入转换为中间表示,解码器生成输出序列。
图神经网络(GNN) Graph Neural Network (GNN) 处理图结构数据的神经网络,适用于社交网络分析、分子结构预测等。
混合专家模型(MoE) Mixture of Experts (MoE) 通过多个“专家”网络并行处理输入,门控机制选择最优结果,平衡计算效率与性能。

2、训练方法与技术

中文名称 英文名称 名词解释
预训练 Pre-training 在大规模无标注数据上训练模型,学习通用语言规律。
微调 Fine-tuning 在预训练模型基础上,用特定领域的小规模数据进一步优化模型性能。
监督微调(SFT) Supervised Fine-Tuning (SFT) 使用标注数据对预训练模型进行任务适配,提升特定任务表现。
少样本学习 Few-shot Learning 仅用少量标注数据训练模型快速适应新任务。
零样本学习 Zero-shot Learning 模型无需特定任务数据即可进行推理。
对抗训练 Adversarial Training 通过生成对抗样本增强模型鲁棒性。
自监督学习 Self-Supervised Learning 利用数据自身生成标签进行训练,如掩码语言建模(MLM)。
人类反馈的强化学习 Reinforcement Learning from Human Feedback (RLHF) 结合人类反馈优化模型输出,使其更符合人类价值观。
迁移学习 Transfer Learning 将源领域的知识迁移到目标领域,加速模型训练。
元学习 Meta-learning 学习如何快速适应新任务,提升模型泛化能力。

3、模型优化与压缩

中文名称 英文名称 名词解释
知识蒸馏 Knowledge Distillation 通过小模型(学生)模仿大模型(教师)的行为,减少计算复杂度。
量化 Quantization 降低参数和激活值的位数(如32位→8位),减少存储和计算需求。
剪枝 Pruning 去除冗余权重或神经元,简化模型结构。
稀疏激活 Sparse Activation 激活函数大部分输出零值,减少计算量和存储需求。
低秩分解 Low-Rank Factorization 将高维矩阵分解为低维矩阵乘积,降低参数量。
权重共享 Weight Sharing 在不同位置复用相同权重(如CNN滤波器),减少参数数量。

4、推理与应用

中文名称 英文名称 名词解释
推理 Inference 模型根据输入数据生成预测结果的过程。
模型融合 Model Ensembling 结合多个模型的预测结果提升整体性能。
多模态学习 Multimodal Learning 处理多种输入形式(文本、图像、语音等)的模型。
提示词 Prompt 引导生成式模型输出的输入文本,显著影响生成质量。
上下文窗口 Context Window 模型处理输入时能“看到”的上下文范围,影响长距离依赖捕捉能力。
在线学习 Online Learning 模型实时更新参数以适应动态数据环境。

5、计算与性能优化

中文名称 英文名称 名词解释
混合精度训练 Mixed-Precision Training 结合16位和32位浮点数加速训练,减少内存占用。
批处理 Batching 一次性处理多个样本以提高硬件利用率。
并行计算 Parallel Computing 拆分任务到多处理器并行执行,加速计算。
分布式训练 Distributed Training 在多台机器上分配训练任务,缩短训练时间。

6、数据与标签

中文名称 英文名称 名词解释
数据清洗 Data Cleaning 处理数据集中的错误、冗余或无关数据。
数据增强 Data Augmentation 通过变换生成新样本(如旋转图像),提升模型泛化能力。
合成数据 Synthetic Data 算法生成的人工数据,补充真实数据不足。
硬标签 Hard Labels 单热编码的确定性分类标签(如类别索引)。
软标签 Soft Labels 概率分布形式的标签(如教师模型预测结果)。

7、模型评估与调试

中文名称 英文名称 名词解释
对抗样本 Adversarial Examples 添加细微扰动误导模型输出的数据,用于测试鲁棒性。
可解释性 Explainability 模型决策过程的透明度和可理解性。
模型鲁棒性 Model Robustness 模型在噪声、对抗攻击或数据分布变化下的稳定性。
交叉验证 Cross-validation 通过多轮数据划分评估模型泛化能力。
AUC-ROC曲线 AUC-ROC Curve 评估二分类模型性能的指标,值越接近1性能越好。

8、伦理与公平性

中文名称 英文名称 名词解释
伦理和偏见 Ethics and Bias 模型训练和应用中的歧视性偏差及隐私保护问题。
公平性 Fairness 模型在不同群体间的表现公正性。
隐私保护 Privacy Protection 保护用户数据隐私的技术(如差分隐私)。

9、其他

中文名称 英文名称 名词解释
能力密度 Capability Density 衡量模型有效参数与实际参数的比率,评估训练质量。
缩放定律 Scaling Law 描述模型性能随规模、数据量和计算资源变化的幂律规律。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐