本文总结了大模型领域常用的专业词汇解释,并分类进行了整理,仅供参考,如下:
1、模型架构
中文名称 |
英文名称 |
名词解释 |
大语言模型(LLM) |
Large Language Model (LLM) |
基于深度学习的大规模神经网络模型,通常采用Transformer架构,通过大规模数据集训练生成高质量文本。 |
Transformer架构 |
Transformer Architecture |
采用自注意力机制的神经网络架构,高效处理序列数据的长距离依赖关系,成为NLP主流架构。 |
循环神经网络(RNN) |
Recurrent Neural Network (RNN) |
处理序列数据的神经网络,但存在梯度消失或爆炸问题,难以捕捉长期依赖。 |
长短期记忆网络(LSTM) |
Long Short-Term Memory (LSTM) |
改进的RNN,通过门控机制解决梯度消失问题,增强长期依赖捕捉能力。 |
卷积神经网络(CNN) |
Convolutional Neural Network (CNN) |
用于图像处理的神经网络,通过卷积操作提取特征,也可用于文本分类等其他领域。 |
多头注意力 |
Multi-Head Attention |
Transformer中的机制,将注意力分解为多个“头”,学习输入的不同特征以提高表现力。 |
位置编码 |
Positional Encoding |
为Transformer提供序列位置信息的编码方式,弥补其无序列记忆能力的缺陷。 |
自注意力机制 |
Self-Attention Mechanism |
允许序列中每个元素关注其他元素的注意力机制,帮助捕捉长距离依赖关系。 |
编码器-解码器架构 |
Encoder-Decoder Architecture |
序列到序列任务的通用架构,编码器将输入转换为中间表示,解码器生成输出序列。 |
图神经网络(GNN) |
Graph Neural Network (GNN) |
处理图结构数据的神经网络,适用于社交网络分析、分子结构预测等。 |
混合专家模型(MoE) |
Mixture of Experts (MoE) |
通过多个“专家”网络并行处理输入,门控机制选择最优结果,平衡计算效率与性能。 |
2、训练方法与技术
中文名称 |
英文名称 |
名词解释 |
预训练 |
Pre-training |
在大规模无标注数据上训练模型,学习通用语言规律。 |
微调 |
Fine-tuning |
在预训练模型基础上,用特定领域的小规模数据进一步优化模型性能。 |
监督微调(SFT) |
Supervised Fine-Tuning (SFT) |
使用标注数据对预训练模型进行任务适配,提升特定任务表现。 |
少样本学习 |
Few-shot Learning |
仅用少量标注数据训练模型快速适应新任务。 |
零样本学习 |
Zero-shot Learning |
模型无需特定任务数据即可进行推理。 |
对抗训练 |
Adversarial Training |
通过生成对抗样本增强模型鲁棒性。 |
自监督学习 |
Self-Supervised Learning |
利用数据自身生成标签进行训练,如掩码语言建模(MLM)。 |
人类反馈的强化学习 |
Reinforcement Learning from Human Feedback (RLHF) |
结合人类反馈优化模型输出,使其更符合人类价值观。 |
迁移学习 |
Transfer Learning |
将源领域的知识迁移到目标领域,加速模型训练。 |
元学习 |
Meta-learning |
学习如何快速适应新任务,提升模型泛化能力。 |
3、模型优化与压缩
中文名称 |
英文名称 |
名词解释 |
知识蒸馏 |
Knowledge Distillation |
通过小模型(学生)模仿大模型(教师)的行为,减少计算复杂度。 |
量化 |
Quantization |
降低参数和激活值的位数(如32位→8位),减少存储和计算需求。 |
剪枝 |
Pruning |
去除冗余权重或神经元,简化模型结构。 |
稀疏激活 |
Sparse Activation |
激活函数大部分输出零值,减少计算量和存储需求。 |
低秩分解 |
Low-Rank Factorization |
将高维矩阵分解为低维矩阵乘积,降低参数量。 |
权重共享 |
Weight Sharing |
在不同位置复用相同权重(如CNN滤波器),减少参数数量。 |
4、推理与应用
中文名称 |
英文名称 |
名词解释 |
推理 |
Inference |
模型根据输入数据生成预测结果的过程。 |
模型融合 |
Model Ensembling |
结合多个模型的预测结果提升整体性能。 |
多模态学习 |
Multimodal Learning |
处理多种输入形式(文本、图像、语音等)的模型。 |
提示词 |
Prompt |
引导生成式模型输出的输入文本,显著影响生成质量。 |
上下文窗口 |
Context Window |
模型处理输入时能“看到”的上下文范围,影响长距离依赖捕捉能力。 |
在线学习 |
Online Learning |
模型实时更新参数以适应动态数据环境。 |
5、计算与性能优化
中文名称 |
英文名称 |
名词解释 |
混合精度训练 |
Mixed-Precision Training |
结合16位和32位浮点数加速训练,减少内存占用。 |
批处理 |
Batching |
一次性处理多个样本以提高硬件利用率。 |
并行计算 |
Parallel Computing |
拆分任务到多处理器并行执行,加速计算。 |
分布式训练 |
Distributed Training |
在多台机器上分配训练任务,缩短训练时间。 |
6、数据与标签
中文名称 |
英文名称 |
名词解释 |
数据清洗 |
Data Cleaning |
处理数据集中的错误、冗余或无关数据。 |
数据增强 |
Data Augmentation |
通过变换生成新样本(如旋转图像),提升模型泛化能力。 |
合成数据 |
Synthetic Data |
算法生成的人工数据,补充真实数据不足。 |
硬标签 |
Hard Labels |
单热编码的确定性分类标签(如类别索引)。 |
软标签 |
Soft Labels |
概率分布形式的标签(如教师模型预测结果)。 |
7、模型评估与调试
中文名称 |
英文名称 |
名词解释 |
对抗样本 |
Adversarial Examples |
添加细微扰动误导模型输出的数据,用于测试鲁棒性。 |
可解释性 |
Explainability |
模型决策过程的透明度和可理解性。 |
模型鲁棒性 |
Model Robustness |
模型在噪声、对抗攻击或数据分布变化下的稳定性。 |
交叉验证 |
Cross-validation |
通过多轮数据划分评估模型泛化能力。 |
AUC-ROC曲线 |
AUC-ROC Curve |
评估二分类模型性能的指标,值越接近1性能越好。 |
8、伦理与公平性
中文名称 |
英文名称 |
名词解释 |
伦理和偏见 |
Ethics and Bias |
模型训练和应用中的歧视性偏差及隐私保护问题。 |
公平性 |
Fairness |
模型在不同群体间的表现公正性。 |
隐私保护 |
Privacy Protection |
保护用户数据隐私的技术(如差分隐私)。 |
9、其他
中文名称 |
英文名称 |
名词解释 |
能力密度 |
Capability Density |
衡量模型有效参数与实际参数的比率,评估训练质量。 |
缩放定律 |
Scaling Law |
描述模型性能随规模、数据量和计算资源变化的幂律规律。 |
如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!
所有评论(0)