人工智能认知课:认识人工智能与大模型
其中有一个错别字大模型也能识别出来。但是不同的大模型,推理能力不同。
一、初识人工智能
1、案例
2、人工智能、机器学习、深度学习、大语言模型的关系
机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方法发展而来
大语言模型是深度学习的一个更细化的产品
3、人工智能发展历程
(1)图灵测试
测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。
多次测试(一般为5min之内),如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。
(2)达特茅斯会议
1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,
约翰·麦卡锡(John McCarthy)
马文·闵斯基(Marvin Minsky,人工智能与认知学专家)
克劳德·香农(Claude Shannon,信息论的创始人)
艾伦·纽厄尔(Allen Newell,计算机科学家)
赫伯特·西蒙(Herbert Simon,诺贝尔经济学奖得主
等科学家正聚在一起,讨论着一个完全不食人间烟火的主题:
用机器来模仿人类学习以及其他方面的智能。
会议足足开了两个月的时间,虽然大家没有达成普遍的共识,但是却为会议讨论的内容起了一个名字:人工智能
因此,1956年也就成为了人工智能元年。
(3)发展历程
数据和算力增长推动深度学习的繁荣发展
4、机器学习的学习算法
监督学习(Supervised Learning)
它使用标记的训练数据来训练模型,以便模型能够预测未见过数据的输出。
在监督学习中,每个训练样本都包括输入特征和一个相应的输出标签。模型的目标是学习输入特征和输出标签之间的映射关系。
监督学习主要用于两类问题:分类和回归。
主要算法包括神经网络、支持向量机、最近邻居法、朴素贝叶斯法、决策树等。
无监督学习(Unsupervised Learning)
它处理的是未标记的数据,无监督学习的目标是发现教据中的隐藏结构和模式,而不是预测特定的输出。这种类型的学习非常适合于教据探索和发现教据的内在属性。无监督学习通常用于聚类、关联规则学习和降维等任务。
半监督学习(Semi-supervised Learning, SSL)
它结合了有监督学习和无监督学习的特点,利用大量未标记数据和少量标记数据来训练模型。
这种方法特别适用于标记数据难以获得或成本较高的情况。
比如先用少量标记初步训练,然后用未标记数据训练
强化学习(Reinforcement Learning, RL)
通过与环境的互动来做出决策,一个智能体(Agent)通过执行动作(Acion)并接收环境提供的奖励(Reward)信号来学习,目的是最大化累积的奖励。
在运筹学和控制论的语境下,强化学习被称作“近似动态规划"(approximate dynamic programming,ADP)
5、openai分的五级人工智能
第一级就是gpt4的水平。
第二级人类的推理能力据说gpt5达到,应该是gpt5的大模型能力+01下一代的推理能力。
第三级是具身智能,ai机器人具有人类的执行能力。
第四级是自我进化AI,AI能自我迭代进化出超过人类能力。
第五级AI组织,整个组织都是AI在协做,管理,工作,发展。
6、人工智能主要分支
(1)领域方向
(2)计算机视觉
计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。
物体检测和人脸识别是其比较成功的研究领域。
计算机视觉现已有很多应用,这表明了这类技术的成就,也让我们将其归入到应用阶段。
随着深度学习的发展,机器甚至能在特定的案例中实现超越人类的表现。但是,这项技术离社会影响阶段还有一定距离,那要等到机器能在所有场景中都达到人类的同等水平才行(感知其环境的所有相关方面)
。
安防监控:移动检测,人脸识别。
自动驾驶。
医疗影像领域:出具诊断报告。
消费电子领域:手机人脸解锁、拍照人像模式、AI美图。
图片识别、图片生成。
(3)语音识别
语音识别是指识别语音(说出的语言)并将其转换成对应文本的技术。相反的任务(文本转语音/TTS)也是这一领域内一个类似的研究主题。
语音识别已经处于应用阶段很长时间了。最近几年,随着大数据和深度学习技术的发展,语音识别进展颇丰,现在已经非常接近社会影响阶段了。
语音识别领域仍然面临着声纹识别和「鸡尾酒会效应
」等一些特殊情况的难题。
现代语音识别系统严重依赖于云,在离线时可能就无法取得理想的工作效果。
百度语音识别:
距离小于1米,中文字准率97%+
支持耳语、长语音、中英文混合及方言
鸡尾酒会效应:
在一个充满各种声音的环境里,比如鸡尾酒会上人们的交谈声、餐具碰撞声、背景音乐声等交织在一起,当一个人专注于和面前的人对话时,通常可以忽略周围其他人的交谈内容,只听到自己正在交流的对象所说的话。但如果此时远处有人提到了这个人的名字,他可能会立刻注意到并将注意力转向那个方向。
(4)文本挖掘/分类
这里的文本挖掘主要是指文本分类,该技术可用于理解、组织和分类结构化或非结构化文本文档。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。
我们将这项技术归类到应用阶段,因为现在有很多应用都已经集成了基于文本挖掘的情绪分析或垃圾信息检测技术。文本挖掘技术也在智能投顾的开发中有所应用,并且提升了用户体验。
文本挖掘和分类领域的一个瓶颈出现在歧义和有偏差
的数据上。
(5)机器翻译
机器翻译(MT)是利用机器的力量自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)。
机器翻译是一个见证了大量发展历程的应用领域。该领域最近由于神经机器翻译而取得了非常显著的进展,但仍然没有全面达到专业译者的水平;但是,我们相信在大数据、云计算和深度学习技术的帮助下,机器翻译很快就将进入社会影响阶段。
在某些情况下,俚语和行话
等内容的翻译会比较困难(受限词表问题)。
专业领域的机器翻译(比如医疗领域)表现通常不好。
(6)机器人
机器人学(Robotics)研究的是机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理。
机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。
自上世纪「Robot」一词诞生以来,人们已经为工业制造业设计了很多机器人。工业机器人是增长最快的应用领域,它们在 20 世纪 80 年代将这一领域带入了应用阶段。在安川电机、Fanuc、ABB、库卡等公司的努力下,我们认为进入 21 世纪之后,机器人领域就已经进入了社会影响阶段,此时各种工业机器人已经主宰了装配生产线。此外,软体机器人在很多领域也有广泛的应用,比如在医疗行业协助手术或在金融行业自动执行承销过程。
但是,法律法规和「机器人威胁论」可能会妨碍机器人领域的发展。还有设计和制造机器人需要相对较高的投资。
7、机器学习工作流程
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
8、过拟合、欠拟合
因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。
欠拟合(under-fitting):模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来。
机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。
过拟合(over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳。
9、python相关框架
特色的功能,python三剑客:numpy,pandas,Matplotlib
。numpy
:一个支持大量维度数组与矩阵运算的库,为Python提供了强大的数值计算能力。pandas
:一个开源的数据分析库,设计用来处理结构化(表格、多种数据类型)以及时序数据。Pandas是数据分析中非常重要的工具,它提供了Dataframe和Series两种主要的数据结构,使得数据操作变得简单。Matplotlib
:一个用于创建静态、交互和实时的2D图表的库。它能够用于生成各种格式的图表,包括条形图、折线图、散点图等。
Python中基于机器学习的库提供了各种工具和算法:PyTorch
:由 Facebook 开发的开源机器学习库,广泛用于计算机视觉和自然语言处理。TensorFlow
:由 Google 开发的开源库,适合构建深度学习和机器学习模型,支持多种计算平台。Keras
:一个高层神经网络AP|,可以在TensorFlow、Theano 和CNTK后端上运行,以简化深度学习模型的构建。Scikit-learn
:是一个简单高效的机器学习库,包含许多用于分类、回归、聚类和维度降低的算法。XGBoost
:一个梯度增强库,非常适合用于分类和回归任务。LightGBM
:是一个梯度提升框架,使用基于树的学习算法,优化了速度和性能。spaCy
:是一个工业级自然语言处理库,专注于提供最好的性能和易用性。NLTK (Natural Language Toolkit)
:是一个用于人类语言数据的处理的库,包括分类、标记、解析、语义推理等功能。
10、AI模型:概率模型
AI模型都是概率模型。
从单纯的概率模型到现实世界事件联合分布统一表征
。
从非线性拟合的通用逼近定理…………柯尔莫哥洛夫信息论…压缩即智能
生成式A1,甚至AGI陪伴我们的都是概率模型,当然我们这个现实世界也是概率模型,具有一定的不确定性,我们工程师开发产品讲究确定性,一定要转变思维对以后理解AI本质和大模型有很大帮助
二、初识大模型
1、认识大模型
人工智能大模型是指使用大规模数据和强大的计算能力训练出来的“大参数”模型,这些模型通常具有高度的通用性和泛化能力,可以应用于自然语言处理、图像识别、语音识别等领域 ,可分为大语言模型、视觉大模型、多模态大模型、基础大模型
。
大模型通过其庞大的参数量、深层次的网络结构和广泛的预训练能力,能够捕捉复杂的数据模式,在多个领域中表现出卓越的性能。它们不仅能够理解和生成自然语言,还能够处理复杂的视觉和多模态信息,适应各种多变的应用场景。
大模型作为专家能力的自动化,可以各方面给普通人带来巨大的便利,例如可以帮助普通人学习知识、修改文章、生成方案等等。
安全性和道德规范:大模型还需要进行一些改进以提高模型的安全性和符合道德规范。这包括对模型的过滤和调节,以防止生成不适当或有害的内容。
2、大模型的发展史
(1)大模型的发展史
(2)openai发展史
(3)阿里巴巴发展史
3、算法:Word2vec
(1)认识向量
在数学中,向量(也称为欧几里得向量、几何向量),指具有大小(magnitude)和方向的量。它可以形象化地表示为带箭头的线段。箭头所指:代表向量的方向;线段长度:代表向量的大小。
Word2Vec 是一种用于将文本中的词转化为向量表示的高效算法,由谷歌团队在 2013 年提出。这种向量表示(词向量)能够捕捉词与词之间的语义关系,在自然语言处理的诸多任务中应用广泛。词向量是一种低维、稠密的向量表示,通常维度在几十到几百
之间。
应用场景
语义相似度计算:通过计算词向量之间的距离(如余弦相似度),可以判断两个词的语义相似度。
文本分类:将文本中的词向量进行平均或求和等操作,得到文本的向量表示,然后用于文本分类任务。
信息检索:利用词向量的语义信息,提高信息检索的准确性。
机器翻译:在机器翻译中,词向量可以作为输入特征,帮助模型更好地理解源语言和目标语言之间的语义对应关系。
缺点:上下文信息考虑不足
:CBOW 和 Skip - Gram 模型在训练时主要考虑局部上下文信息,对于长距离的语义依赖捕捉能力有限。缺乏语义理解
:虽然词向量能够体现词的语义关系,但模型本身并不真正理解词的语义,只是从数据中学习到了统计规律。
4、注意力机制:Attention
(1)案例:我”去了几次咖啡店?
注意力机制:模拟了人类大脑在处理信息时的注意力分配方式,能够让模型在处理大量信息时,有选择地聚焦于关键部分,从而提高模型的性能和效率。高频≠重点! 重点≠高权重!
5、Transformer
6、多模态
多模态是指利用多种不同形式或感知渠道的信息进行表达、交流和理解的方式,通常包括视觉、听觉、文本、触觉等多种感官
输入和输出方式。在计算机科学、人工智能和机器学习领域,多模态技术指的是通过整合来自不同模态的数据(如图像、文字、音频、视频等),从而增强模型的理解能力和推理能力。
相关应用领域:
跨模态搜索
跨模态推荐
跨模态问答
跨模态生成
跨模态融合
智能驾驶
虚拟主播
7、推理模型和非推理模型
8、模型蒸馏
“模型蒸馏”就是把大模型学到的本领,用“浓缩”的方式教给小模型的过程,在保证一定精度的同时,大幅降低运算成本和硬件要求。
9、全模态训练
现在训练大语言模型,或者文生视频模型,用全横态数据来训练,比如用文本数据,视频数据,声音数据,法线数据,点云数据,深度图等来训练,比单一横态数据训练能提高20%的任务性能。
多模态的训练,都是从一个大语言模型初始化开始进行其它模型训练,并进行多模态之间的对齐。
比如阿里的 qwen2-VL基于 qwen2进行训练,CogVLM2从llama3 8B开始训练。
柏拉图表征假说让我们能够从一个新的视角审视全模态或者多模态数据之间的关系。
假设你手上有M张图片和N段文字,为了训练出最强的视觉模型,你不止应该训练全部M张图片,还应该把N段文字也纳入训练集中。
在预训练数据添加高质量代码
数据大幅度提升模型性能
。
添加代码数据可使自然语言推理能力相对增加 8.2%,世界知识增加 4.2%,生成胜率提高6.6%,代码性能提高 12 倍.
10、参数规模
在深度学习中,模型参数是指网络中可学习调整的权重weight和偏置bias。在大型语言模型(LLM)中,这些参数的数量非常庞大,通常达到数十亿甚至数千亿。
比如GPT4达到1.8万亿参数
,llama3正在训练4千亿参数
版本,英伟达也开源过340B的Nemotron-4。
为了训练这些大模型,需要大量的文本数据
,这些数据构成了模型学习的基础。数据集的规模和多样性对模型的性能有重要影响,例如常用的维基百科和Common Craw、C4、Github数据集,其训练语料大小达到了TB级别,比如lama2是用2T
的tokeni训练,lama3用了15T
的token训练,英伟达的Nemotron-4也用9T的token训练。
11、训练算力
训练大语言模型的 预训练模型,需要大量的算力,llama2几个不同尺寸模型训练一共用了330多万A100小时
,其中70B参数的版本用了170多万A100小时,1万张A100训练,100%的算力利用率(60%的利用率都是特别牛逼的优化),也大概要3个月,lama3则一共训练770万H100小时,70B版本花了640万H100小时。
12、大模型的处理过程
三、大模型的使用
1、大模型逻辑题目案例:咖啡
(1)gpt-3.5
(2)文心-3.5
(3)gpt-4
(4)总结
其中有一个错别字大模型也能识别出来。
但是不同的大模型,推理能力不同。
2、怎么能用好大模型?
四、提示词工程
五、DeepSeek
1、DeepSeek的那些神回复(现在已经被和谐了)
2、认识DeepSeek
3、优势
DeepSeek的成功不仅在于其突破性的算法优化,还在于其成本效益。其训练成本仅为OpenAI ChatGPT的十分之一,并且在芯片使用上展现了惊人的优势。DeepSeek的低成本推理能力打破了AI计算的传统模式,将AI模型训练与推理的成本推向了一个全新的阶段。
其灵活的对话能力和高效的模型优化。无论是应用在企业级智能客服、教育领域、还是个人化虚拟助手,DeepSeek都能为各行各业提供创新的解决方案。
DeepSeek开源协议。小巧开源,可以在个人电脑上部署大模型。
4、理性看待
过度神话:它非常棒,对行业发展的促进价值是值得肯定的,但谈及颠覆,还为时尚早。从一些专业测评来看,在一些关键问题的解决上,它并没有超越chatgpt,只能说各有千秋。
无脑贬低:微软说deepseek蒸馏了chatgpt的结果,所以一些人也借题发挥,把deepseeek贬低得一钱不值。基于领先模型蒸馏验证优化自己的模型,是很多大模型团队的一个常规操作,每个领先的大模型都摆脱不了被采集,被蒸馏的宿命。但其实也没必要把这个当作决定成败的关键。最终大家都是你中有我,我中有你,迭代前进。
成本优势:好比告诉你配方和生产流程,你去做仿制药的成本(还不包括人工),但是原研药的成本是仿制药的多少倍?
DeepSeek最大的贡献是,会加速整个AI产业的迭代效率,它们提供了一些新的优化思路,工程思想理念,这些会被所有行业巨头广泛吸收采纳,并用于产品的快速迭代和优化,用不了几个月,我相信就会看到显著的成果
。
5、本地部署DeepSeek
参数越多,就越智能。
6、DeepSeek加快了AI的发展
六、展望未来
存在一个理想的、统一的现实模型,所有的表征最终都趋向于这个模型。(所有能力都聚合)
七、目前AI的窘境
参考文章:https://mp.weixin.qq.com/s/PsMOkSpomYKf6QlHdBrpaQ
AI靠什么进步?主要靠两样东西:更大的模型,更大的数据集
。算法创新有,但只是锦上添花,决定性因素还是“喂得多、跑得快
”。
前100个样本让模型学到了80%的能力,后面1000个样本可能只带来5%的提升。
训练一个AI模型,不是把数据堆进去就完事。模型要对每一个数据点进行计算、比较、参数调整。这个过程是指数级上升的。数据翻倍,计算量不是翻倍,是平方甚至立方上升
。
OpenAI的CEO奥特曼已经放话:如果没有核聚变,AI的未来很难继续推演下去
。
以特斯拉为例,FSD(全自动驾驶)迟迟无法实现,原因很简单:它是基于视觉识别的AI,依靠训练模型来感知和判断世界。而要让一辆车100%识别周边物体、环境、光线、突发情况,其识别准确率必须逼近100%。一旦只有95%,就意味着每20次就可能出错一次,而这一次可能就是死亡事故。
GPT系列已逐步进入“投入极高、改进有限
”的阶段。
附1:推荐网站
https://ai-bot.cn/
https://www.aishort.top/
https://www.promptingguide.ai/zh
更多推荐
所有评论(0)