LLM总结

它指的是一种具有广泛认知能力的人工智能系统，能够像人类一样在多种不同的环境和情境中学习、理解、推理和应用知识。这是一种结合了检索（Retrieval）和生成（Generation）的人工智能技术，通常用于自然语言处理（NLP）任务，尤其是在文本生成领域。实现AGI面临着巨大的技术挑战和伦理问题，包括如何确保AGI的安全、可控以及与人类价值观的一致性。然后，这些检索到的信息被用作上下文，输入到一个生

i'm iron man_hou

634人浏览 · 2025-09-23 17:44:50

i'm iron man_hou · 2025-09-23 17:44:50 发布

1、AGI

AGI是"人工通用智能"（Artificial General Intelligence）的缩写。它指的是一种具有广泛认知能力的人工智能系统，能够像人类一样在多种不同的环境和情境中学习、理解、推理和应用知识。AGI与目前常见的"窄AI"或"弱AI"（它们在特定领域或任务上表现出色，但在其他领域则无能为力）形成对比。

AGI的关键特点包括：

自主学习：能够从经验中学习，并不断改进其性能。
跨领域能力：能够处理多种不同类型的任务，而不仅仅是单一的或狭窄的任务。
适应性：能够适应新环境和新任务，无需重新编程。
理解与推理：具有理解复杂概念和进行逻辑推理的能力。
创造力：能够创造性地解决问题，甚至可能产生新的思考方式或解决方案。

AGI是人工智能研究的终极目标之一，它将具有与人类相似或超越人类的智能水平。然而，目前AGI仍然是一个理论概念，尚未实现。实现AGI面临着巨大的技术挑战和伦理问题，包括如何确保AGI的安全、可控以及与人类价值观的一致性。

2、AIGC

AIGC是"人工智能生成内容"（Artificial Intelligence Generated Content）的缩写。这通常指的是使用人工智能技术自动生成文本、图像、音频、视频或其他形式的内容。AIGC技术可以应用于多种场景，包括但不限于：

文本生成：自动撰写新闻文章、生成创意写作、自动完成代码等。
图像生成：创建艺术作品、设计图案、生成特定风格的图片等。
音频生成：合成语音、生成音乐、制作有声读物等。
视频生成：自动剪辑视频、生成动画、模拟真实场景等。

AIGC技术的核心是深度学习和机器学习算法，它们通过分析大量的数据来学习如何生成新的内容。随着技术的发展，AIGC在提高内容生成效率、降低成本以及创造个性化内容方面展现出巨大的潜力。然而，这也引发了关于版权、伦理和内容真实性的讨论。

3、RAG

RAG通常指的是"Retrieval-Augmented Generation"，即"检索增强的生成"。这是一种结合了检索（Retrieval）和生成（Generation）的人工智能技术，通常用于自然语言处理（NLP）任务，尤其是在文本生成领域。

在RAG模型中，系统首先使用一个检索组件来搜索和检索与输入查询相关的信息或文档。然后，这些检索到的信息被用作上下文，输入到一个生成组件中，如序列到序列（Seq2Seq）模型，以生成响应或输出文本。

RAG模型的关键特点包括：

检索组件：使用检索算法（如向量相似性搜索）来快速找到与输入查询相关的信息。
生成组件：使用生成模型（如Transformer-based的语言模型）来生成文本。
上下文融合：将检索到的信息与输入查询结合，提供给生成模型，以生成更加准确和相关的输出。
端到端学习：整个系统可以通过端到端的方式进行训练，优化检索和生成的协同效果。

RAG模型在多种NLP任务中表现出色，如开放域问答、对话系统、文本摘要等。它通过结合检索的广度和生成的灵活性，提高了模型的准确性和鲁棒性。

请注意，RAG也可能是其他术语的缩写，具体含义取决于上下文。在不同的领域，RAG可能有不同的定义。

4、LANGCHAIN

5、微调

ptuning 高效微调

全量微调 VS 高效微调

全量微调：效果好，但是训练成本高，也有可能产生模型退化。

高效微调：效果还可以，训练成本地，不容易产生模型退化。

实验环境：autodl.com

Lora原理/微调

推理时长：跟问题的难度相关联

大模型如何评估：

BELU 计算模型预测与真实答案的重叠度；

蒸馏：全量调参

量化。剪枝

6、视觉大模型

基础模型的定义与重要性
- 概念介绍：基础模型被定义为通过自监督或半监督方式在大规模数据上训练的模型，能够适应多种下游任务。这种模型的成功归功于数据规模的大幅扩展和模型规模的增加。
- 实际应用：例如，SAM（Segment Anything Model）可以通过点或框提示来分割特定对象，而无需重新训练。此外，像CLIP这样的预训练视觉语言模型可以在没有零样本/少样本学习的情况下，实现强大的零样本泛化性能。
多模态融合的概念
- 多模态定义：“多模态”通常指的是“独立但相互连接的方向”，如视觉、文本和音频等不同模态的信息可以通过基础模型进行整合处理。
- 技术实现：一些研究工作致力于开发可以执行类别无关分割的大型基础模型，这些模型可以通过视觉输入提示适应不同的任务需求。
架构设计
- 典型架构：包括双编码器架构、融合架构、编码器-解码器架构以及自适应LLM架构等，每种架构都有其特定的功能和优势。
- 应用示例：例如，CLIP使用了图像-文本对比损失来学习表示，而生成式学习则关注于条件概率模型的建立。
目标函数
- 对比式学习：通过图像-文本对比损失来优化模型，使其能够正确配对图像和文本。
- 生成式学习：涉及掩码语言建模损失、标准字幕损失等，旨在提高生成文本的质量。
预训练数据集与微调
- 数据集类型：包括图像-文本数据、部分伪标签数据以及数据集组合等。
- 微调策略：主要用于提高模型在特定任务上的性能，如开放世界物体检测等。
提示工程
- 目的与方法：提示工程旨在将视觉数据集转换为图像文本训练数据，以提供交互性并完成特定任务。这通常涉及使用基于模板的提示来生成描述性文本。
视觉基础大模型分类
- 文本提示模型：分为对比学习、生成学习和混合方法三类，每类都有其代表模型和技术特点。
- 视觉提示模型：这类模型可以通过视觉输入提示来适应不同的任务需求。
- 异构模态基础模型：结合了不同的模态信息，如ImageBind等。
总结与展望
- 当前进展：文章总结了基础模型在计算机视觉领域的发展脉络，并讨论了其在大规模训练和不同任务适应性方面的最新进展。
- 未来方向：最后，作者希望读者通过阅读这篇文章能够对基础模型在计算机视觉领域的发展有一个大致的了解。