最全科普|万字长文论人工智能的前世今生(下篇)
到1976年,MYCIN的开发工作基本完成,其诊断准确率达到65%-70%,甚至超过了一些人类医生的表现,成为人工智能领域的里程碑。1980年,美国数字设备公司(DEC)开发了XCON(eXpert CONfigurer),这是一个用于配置计算机系统的专家系统,成功帮助公司自动化复杂的计算机配置流程,显著降低了配置错误和成本,成为专家系统商业化的成功案例。Word2Vec的提出不仅显著提升了自然语
话不多说,接上篇!最全科普|万字长文论人工智能的前世今生(上篇)_人工智能简史 不同物种大脑皮层神经元数量-CSDN博客
05 第二次AI热潮(1980-1986):专家系统与神经网络的崛起
在经历了第一次寒冬的低谷后,人工智能领域在1980年代迎来了第二次热潮。这一时期的AI研究更加务实,科学家们将目光转向了特定领域的应用,尤其是专家系统的开发。同时,神经网络研究的复苏也为AI领域注入了新的活力。
专家系统兴起:AI的实用化尝试
专家系统是基于规则的人工智能系统,能够模拟人类专家在特定领域的决策过程。它们通过知识库(存储领域知识)和推理引擎(应用规则进行推理)来解决问题。这种方法在医疗诊断、金融分析、工程设计等领域取得了显著成功。
1972年,斯坦福大学的计算机科学家Edward Shortliffe开始开发MYCIN,这是一个用于医疗诊断的专家系统,专注于细菌感染和抗生素治疗。到1976年,MYCIN的开发工作基本完成,其诊断准确率达到65%-70%,甚至超过了一些人类医生的表现,成为人工智能领域的里程碑。然而MYCIN的实际应用受到限制,主要因为当时的法律和伦理问题,而非技术上的不足。1980年,美国数字设备公司(DEC)开发了XCON(eXpert CONfigurer),这是一个用于配置计算机系统的专家系统,成功帮助公司自动化复杂的计算机配置流程,显著降低了配置错误和成本,成为专家系统商业化的成功案例。
图片来源:https://www.youtube.com/watch?v=ipEOjuV0vns
与此同时,1982年,日本政府启动了“第五代计算机计划”,试图通过专家系统和其他人工智能技术推动国家技术进步,目标是开发能够进行逻辑推理和自然语言处理的计算机。尽管该计划未能完全实现目标,但它推动了全球对人工智能的研究热潮。
图源:https://www.aikatana.com/p/legacy-japans-fifth-generation-computer-systems-fgcs-project-ai
到1983年,专家系统的商业化应用达到高峰,许多公司开始开发自己的专家系统,用于优化生产流程、改进供应链管理和进行市场预测。例如,金融领域的专家系统被用于信用风险评估和投资组合优化,而制造业中则用于设备维护和流程优化。
然而,1987年开始,专家系统的热潮逐渐衰退。由于其局限性(如知识库构建成本高、缺乏灵活性、无法处理动态环境)以及新兴机器学习方法的崭露头角,企业对专家系统的兴趣开始减弱,许多项目被搁置。
神经网络研究复苏:反向传播算法的崛起与深度学习的黎明
在1950年代和1960年代,神经网络曾是人工智能研究的热点之一。然而,由于硬件性能不足和理论上的局限性(如单层感知机无法解决非线性问题),神经网络研究在1970年代逐渐被冷落。
1974年,剑桥大学的博士生保罗·韦伯斯特(Paul Werbos)在其博士论文中首次提出了反向传播(Backpropagation)算法的基本思想。这一算法旨在通过误差的梯度反向传播,优化多层神经网络的权重。然而,由于当时计算资源的匮乏以及神经网络研究的整体低迷,这一开创性的工作未能引起学术界的广泛关注。
图源:https://www.sohu.com/a/476060416_129720
12年后,反向传播算法迎来了它的转折点。大卫·鲁梅尔哈特(David Rumelhart)、杰弗里·辛顿(Geoffrey Hinton)和罗纳德·威廉姆斯(Ronald Williams)在论文《Learning Representations by Back-Propagating Errors》中系统性地阐述了这一算法,并展示了其在训练多层神经网络中的有效性。
图源:https://ni.cmu.edu/~plaut/papers/pdf/PlautNowlanHinton86TR.backprop.pdf
他们的研究表明,通过计算误差的梯度并将其反向传播到网络的每一层,可以显著提高神经网络的训练效率。这一成果解决了多层神经网络的训练难题。
06 第二次AI寒冬与崛起(1987年-2006年)
1989年:卷积神经网络的首次实际应用
1989年,反向传播算法迎来了其首次大规模实际应用。Yann LeCun及其团队利用反向传播算法训练卷积神经网络(Convolutional Neural Network, CNN),成功开发了一套手写数字识别系统。这一系统被美国邮政局采用,用于自动识别信件上的邮政编码,显著提高了邮件处理的效率。LeCun的工作不仅验证了神经网络在实际场景中的潜力,也为计算机视觉领域的进一步发展奠定了基础。这一成果标志着神经网络从理论研究走向实际应用的重要一步。
1990年代初期:神经网络研究的瓶颈期
尽管反向传播算法的潜力得到了验证,但1990年代的神经网络研究却陷入了瓶颈。受限于当时的硬件性能和数据规模,神经网络的规模和复杂度难以进一步提升。此外,深层神经网络在训练过程中频繁遭遇梯度消失问题,导致模型难以有效收敛。这一时期,神经网络研究的热度逐渐下降,许多研究者转向其他领域。
1990年代中后期:AI的低谷与转型
在经历了漫长的寒冬后,1990年代中后期的人工智能领域开始显现转型迹象。随着专家系统的衰退,统计学习方法迅速崛起,支持向量机(SVM)和贝叶斯网络等技术成为新焦点,为AI研究注入了新的活力。与此同时,互联网的普及带来了前所未有的海量数据,推动了数据驱动方法的广泛应用。尽管神经网络整体陷入低潮,但1997年长短期记忆网络(LSTM)的提出为未来深度学习的发展埋下了伏笔。可以说,这一时期是AI从规则驱动向数据驱动转型的关键阶段,为后续的技术突破奠定了坚实基础。
2000年代初期:AI的复苏前夜
进入21世纪初,人工智能领域迎来了复苏的曙光。统计机器翻译(SMT)逐步取代传统规则方法,条件随机场(CRF)等算法推动自然语言处理取得显著进展,而Google等搜索引擎的崛起则展示了AI在信息检索中的巨大潜力。与此同时,AI的商业化应用开始加速,推荐系统、语音识别技术以及家用机器人(如2002年推出的Roomba)逐步进入大众视野。2006年,Geoffrey Hinton提出深度信念网络(DBN),标志着深度学习的重新崛起。这一时期,技术积累与商业化探索齐头并进,为人工智能的全面复兴拉开了序幕。
07 深度学习的复兴与奠基时期(2006年-2012年)
2006年:深度学习的学术复兴
2006年,人工智能领域迎来了划时代的突破。杰弗里·辛顿(Geoffrey Hinton)及其团队提出了逐层预训练(Layer-wise Pretraining)方法,成功解决了深层神经网络训练中的梯度消失问题。这一方法通过逐层优化网络参数,使深层网络的训练变得可行,显著提升了模型性能。辛顿团队的研究表明,深度神经网络不仅能够捕捉复杂的特征表示,还能在大规模数据中展现出强大的学习能力。这一突破重新激活了对神经网络的研究热情,反向传播算法作为深度学习的核心技术再次成为焦点。辛顿在回顾这一成果时表示:“我们终于找到了让深层网络真正发挥潜力的方法,这为人工智能的未来打开了全新的可能性。”这一年被视为深度学习学术复兴的起点。
2006-2012: 硬件与数据的双重驱动:深度学习的加速器
2006年至2012年间,深度学习的快速崛起离不开硬件性能的飞跃和大规模数据的积累。首先,硬件革命为深度学习提供了强大的计算能力。研究者发现,图形处理器(GPU)的并行计算能力在处理矩阵运算时远超传统的中央处理器(CPU)。这一发现使得深层神经网络的训练时间从数周缩短至数天甚至数小时。NVIDIA等公司在这一时期推出的高性能GPU,成为深度学习发展的重要推动力。
图片来源:http://hw-museum.cz/article/10/the-ultimate-gpu-benchmark--2006---2010-/1
与此同时,数据爆发为深度学习模型的训练提供了丰富的资源。互联网的普及和数字化进程带来了海量数据,而2009年发布的ImageNet数据集更是深度学习发展的重要里程碑。这个包含超过1000万张标注图像的数据集,为计算机视觉任务提供了标准化的训练和评估平台。
图源:https://www.youtube.com/watch?v=Q-8ERkLwqDE
硬件与数据的双重驱动,使得深度学习从理论研究逐步走向实际应用,推动了模型性能的持续提升。
工业界的初步应用:从实验室走向现实
2010年前后,深度学习开始从学术界走向工业界,展现出巨大的商业潜力。2011年,谷歌启动了由吴恩达(Andrew Ng)领导的“Google Brain”项目,利用深度学习技术训练了一个能够自动识别猫的视频模型。尽管这一实验看似简单,却展示了深度学习在无监督学习和大规模数据处理中的潜力,成为深度学习工业化应用的标志性事件。
图源:https://venturebeat.com/ai/google-brains-ai-achieves-state-of-the-art-text-summarization-performance/
同样在这一时期,深度学习在语音识别领域也取得了突破性进展。2009年,杰弗里·辛顿团队与微软研究院合作,将深度神经网络(DNN)应用于语音识别任务,显著提升了语音识别的准确率。微软随后将这一技术应用于语音助手和实时翻译系统,为语音识别技术的普及奠定了基础。
图源:https://blog.csdn.net/u014170843/article/details/142873341
随着谷歌、微软、百度等科技巨头纷纷成立深度学习研究团队,深度学习技术被广泛应用于搜索引擎优化、广告推荐、语音识别等实际场景,推动了这一技术从实验室走向现实世界。
2012年:AlexNet横空出世,震撼世界
2012年,深度学习迎来了历史性时刻。在当年的ImageNet图像识别竞赛中,杰弗里·辛顿团队的学生亚历克斯·克里兹夫斯基(Alex Krizhevsky)和伊利亚·苏茨克维(Ilya Sutskever)开发的AlexNet模型以压倒性优势夺冠,震撼了整个计算机视觉领域。AlexNet首次将卷积神经网络(CNN)与GPU加速相结合,显著提升了图像分类的效率和准确率。该模型将图像分类错误率从26%降至15%,远远领先于传统方法。
AlexNet的成功引发了全球范围内对深度学习的研究热潮,成为深度学习时代的正式开启。
图源:https://www.youtube.com/watch?v=ZUc0Mib5DeI
随后几年,深度学习技术迅速扩展到语音识别、自然语言处理、自动驾驶等多个领域,推动了人工智能的全面爆发。
08 2012-2022:人工智能的黄金时代
2012年开启的深度学习时代,堪称人工智能的“黄金时代”。这一时期,得益于计算能力的飞跃、大规模数据的积累以及算法的创新,深度学习在多个领域取得了突破性进展。从图像识别到语音识别,从自然语言处理到生成式AI,深度学习技术正在深刻改变我们的生活。
2013年:Word2Vec的诞生,词嵌入技术的重大突破
2013年,Google Brain团队发表了一篇关于使用神经网络技术进行语言建模的开创性论文,提出了Word2Vec模型。这一模型通过将单词表示为向量,捕捉了单词之间的语义关系。Word2Vec的核心思想是基于上下文预测单词(Skip-gram)或基于单词预测上下文(CBOW),从而学习到单词的分布式表示。这种表示方式使得语义相似的单词在向量空间中彼此接近,例如“国王”(king)与“王后”(queen)之间的关系可以通过简单的向量运算(king - man + woman ≈ queen)体现出来。Word2Vec的提出不仅显著提升了自然语言处理(NLP)任务的性能,也为后续的语言模型(如BERT和GPT)奠定了基础,成为NLP领域的里程碑。
2014年:GANs的诞生与FAIR的成立
2014年,深度学习领域迎来了两项重要事件。首先,Ian Goodfellow及其团队提出了生成对抗网络(GANs),这是一种全新的生成模型架构。GANs由两个网络组成:生成器(Generator)和判别器(Discriminator)。生成器试图生成逼真的数据,而判别器则试图区分生成的数据和真实数据。通过这种对抗性的训练,GANs能够生成高度逼真的图像、音频和其他数据。GANs的提出为生成模型开辟了全新的方向,并在艺术创作、图像生成、数据增强等领域产生了深远影响。
同年,Facebook AI Research(FAIR)正式成立,标志着大型科技公司对人工智能研究的高度重视。FAIR的成立不仅推动了AI技术的快速发展,例如开发了PyTorch,也吸引了大量顶尖研究者加入,为AI领域注入了强大的创新动力。
2015年:TensorFlow与AlphaGo的初露锋芒
2015年,Google发布了其开源深度学习框架TensorFlow,迅速成为最受欢迎的深度学习工具之一。TensorFlow的发布标志着深度学习框架进入开源竞争时代,与Theano、Caffe等框架共同推动了AI技术的普及。
同年,DeepMind的AlphaGo首次在围棋领域展现出非凡的实力,战胜了欧洲围棋冠军樊麾。这一胜利预示着人工智能在复杂博弈中的潜力,也为后续与世界顶级棋手的对决奠定了基础。
2016年:AlphaGo战胜李世石与OpenAI的成立
2016年,人工智能领域迎来了一个历史性时刻。DeepMind的AlphaGo在与围棋世界冠军李世石九段的五局比赛中以4:1获胜,成为首个在围棋比赛中战胜世界冠军的AI程序。这一成就震撼了全球,围棋被认为是人类智慧的象征,而AlphaGo的胜利标志着AI在解决复杂问题上的能力达到了新高度。
同年,OpenAI正式成立。这是一家非营利性人工智能研究机构,旨在推动人工智能的发展,同时确保其安全性和对社会的积极影响。OpenAI的成立不仅推动了AI技术的开放性和透明性,也为后续的AI研究设定了伦理和安全的基准。
2017年:AlphaGo Zero与WaveNet的突破
2017年,DeepMind发布了AlphaGo Zero,一个完全通过自我对弈学习围棋的AI系统。与之前的AlphaGo不同,AlphaGo Zero不依赖人类棋谱,仅通过强化学习从零开始训练,最终达到了前所未有的围棋水平。这一成果展示了AI在自我学习和优化方面的巨大潜力。
同年,DeepMind还发布了WaveNet,一个用于生成高质量语音和自然语言的深度学习模型。WaveNet能够生成接近人类自然语音的音频,显著提升了语音合成技术的质量,并被应用于Google Assistant等产品中。
2018年:OpenAI Five与BERT的崛起
2018年,OpenAI的OpenAI Five在多人在线竞技游戏Dota 2中击败了世界冠军队伍。这一成就展示了AI在复杂多人协作和对抗环境中的能力,标志着AI在实时战略游戏中的突破。
同年,Google发布了BERT模型,这是自然语言处理领域的又一重大进展。BERT通过双向Transformer架构,能够更好地理解上下文语义,在多个NLP任务中取得了显著的性能提升。BERT的发布推动了NLP技术的广泛应用,并成为后续语言模型的基础。
2019年:GPT-2与StyleGAN的惊艳表现
2019年,OpenAI发布了GPT-2,一个强大的预训练语言模型。GPT-2因其生成文本的能力而引起广泛关注,它能够根据输入生成连贯且富有逻辑的长篇文本。这一模型展示了语言生成技术的巨大潜力,同时也引发了关于AI滥用的伦理讨论。
同年,NVIDIA发布了StyleGAN,一种能够生成高度逼真人脸的生成对抗网络模型。StyleGAN通过控制生成图像的风格和细节,进一步提升了图像生成的质量,为虚拟现实、游戏开发和艺术创作提供了强大的工具。
2020年:GPT-3与AlphaFold的双重突破
2020年,OpenAI发布了GPT-3,一个拥有1750亿参数的巨大语言模型。GPT-3展示了前所未有的自然语言理解和生成能力,能够完成从写作到编程的多种任务。其表现引发了全球范围内对大规模语言模型的关注。
同年,DeepMind的AlphaFold在蛋白质折叠问题上取得了突破性进展。AlphaFold能够准确预测蛋白质的三维结构,这一成果解决了生物学领域的长期难题,对药物研发和疾病研究产生了深远影响。
2021年:AI艺术与多模态模型的崛起
2021年,OpenAI发布了CLIP和DALL·E模型。CLIP能够将图像和文本联系起来,实现跨模态的理解,而DALL·E则能够根据文本描述生成对应的图像。这些模型展示了AI在多模态任务中的强大能力,为人机交互和创意生成开辟了新方向。
2022年:ChatGPT的发布与公众热潮
2022年,OpenAI发布了ChatGPT,一个基于GPT-3.5的聊天机器人。ChatGPT能够进行自然流畅的对话,回答问题、提供建议甚至参与创意写作。其表现引发了公众对AI对话系统的浓厚兴趣,并迅速成为全球范围内的热门话题。ChatGPT的成功标志着AI技术在自然语言交互中的成熟,也为未来的AI应用铺平了道路。
09 生成式AI时代(2022年至今):人工智能的普及与变革
如果说2012年至2022年是深度学习技术奠定基础、推动人工智能(AI)进入黄金时代的十年,那么2022年至今则是生成式AI全面爆发、推动AI技术普及与社会变革的新时代。这一时期的AI发展以大语言模型(LLMs)、多模态AI和生成式AI的突破为核心,标志着AI从专业工具向大众化、商业化和社会深度融合的转变。
图源:http://www.wddxxj.com/2024/03/03/《beyond-human-creativity-a-tutorial-on-advancements-in-ai-generated-content》解读/
ChatGPT的成功与后续版本的发布
2022年底,OpenAI推出了基于GPT-3.5的大语言模型ChatGPT,这一产品迅速成为全球范围内的现象级应用。ChatGPT以其自然流畅的对话能力和广泛的适用性,吸引了数百万用户。无论是回答问题、生成创意内容,还是辅助编程,ChatGPT都展现了强大的实用性。它的成功标志着大语言模型从实验室研究走向了大规模商业化应用。
2023年3月,OpenAI发布了GPT-4,这一版本在多个方面实现了显著提升。GPT-4支持更长的上下文输入(超过25,000个单词),并在多模态任务中表现出色,例如处理图像输入。它能够完成复杂的推理任务,例如分析图表、解决数学问题和生成更高质量的文本。GPT-4的发布进一步巩固了OpenAI在大语言模型领域的领先地位。
值得一提的是,ChatGPT和GPT-4的技术被集成到Microsoft的产品中,例如Office 365中的Copilot,为用户提供了智能化的办公体验。这种深度整合不仅提升了生产力,也推动了AI技术的普及。
其他大语言模型的崛起
随着OpenAI的成功,其他科技公司和研究机构也加速了大语言模型的研发。2023年,Google DeepMind推出了Gemini,一个结合语言和视觉能力的多模态模型。Gemini被认为是OpenAI的直接竞争对手,其在多模态任务中的表现尤为突出,并被广泛应用于Google搜索和其他核心产品中。
Anthropic则发布了Claude系列模型,专注于安全性和可控性。Claude被设计为“更安全的AI助手”,在生成内容时更加注重伦理和用户意图,成为企业和教育领域的热门选择。
Meta在2023年发布了LLaMA(Large Language Model Meta AI),并选择了开源的方式。这一决定在AI社区中引发了广泛讨论,LLaMA的开源性使得研究者和开发者能够在其基础上进行创新,进一步推动了AI技术的民主化。
图源:https://varindia.com/news/meta-unveils-new-ai-model-llama-3-1
此外,新兴公司如Mistral和Cohere也加入了竞争。Mistral推出了高效的开源模型Mistral 7B,展示了在小规模参数下的强大性能,而Cohere则专注于企业级语言模型,提供定制化解决方案,满足不同行业的需求。
图片来源:https://www.cnbeta.com.tw/articles/tech/1447463.htm
开源模型的兴起
2023年,开源大语言模型的兴起成为AI领域的重要趋势。Meta的LLaMA、Falcon和Mistral等开源模型降低了AI开发的门槛,使更多企业和个人能够利用大语言模型进行创新。
图片来源:https://news.qq.com/rain/a/20240616A039J800
Hugging Face等平台成为开源模型的主要集散地,为开发者提供了丰富的工具和资源。这种开放生态的形成,不仅推动了技术的快速迭代,也促进了AI社区的繁荣。
多模态模型的普及
多模态AI,即能够同时处理多种数据类型(如文本、图像、音频)的模型,近年来取得了显著进展。2023年,OpenAI推出了GPT-4 Vision,这是GPT-4的多模态版本,支持图像输入。GPT-4 Vision能够完成复杂的视觉任务,例如描述图像内容、分析图表、甚至解决视觉推理问题(如“这张图片中有什么异常?”)。这一技术的发布标志着AI在多模态领域迈出了重要一步。
与此同时,Google DeepMind推出了Imagen,一个基于文本生成高质量图像的模型,与OpenAI的DALL·E 2展开竞争。Imagen在生成图像的细节和语义一致性方面表现出色,被广泛应用于广告设计和创意产业。
生成式AI在图像和视频领域的应用正在迅速扩展。MidJourney和Stable Diffusion等生成式图像模型在艺术创作和设计领域广泛应用。例如,MidJourney被用于生成概念艺术,而Stable Diffusion因其开源性被广泛用于研究和商业项目。
在视频生成领域,Runway推出了基于生成式AI的视频工具,能够根据文本描述生成短视频。这一技术为影视制作和内容创作提供了全新工具,例如快速生成广告素材或电影预览。生成式视频的出现,正在改变传统影视制作的流程和成本结构。 语音和音频生成技术也在快速发展。ElevenLabs开发了高质量的语音生成技术,能够模仿人类语音的语调和情感,这一技术被广泛应用于有声书、游戏配音和虚拟助手中。
此外,Google推出了MusicLM,一个生成音乐的AI模型。MusicLM能够根据文本描述生成复杂的音乐作品。例如,用户可以输入“欢快的爵士乐,带有钢琴和萨克斯风”,MusicLM会生成符合描述的音乐,这一技术为音乐创作提供了全新的可能性。
内容来源:IF 实验室
更多推荐
所有评论(0)