1,AI的类型

人工智能(Artificial intelligence)是指使机器更接近人类大脑功能的技术。在本课中,您将探索不同类型的人工智能,包括生成式人工智能、机器学习和基于规则的人工智能。

AI 是一个广泛的术语,涵盖了两个主要类别:
  • 基于规则的 AI 依赖于预定义的逻辑规则
  • 机器学习则从数据模式中学习

机器学习有两种类型:
  • 判别模型学习不同数据类别之间的边界
  • 生成模型则生成新的数据。

人工智能是一系列技术的总称。

2,机器学习模型

机器学习彻底改变了企业的运作方式和决策过程。对于像 Facebook、Google 和 Uber 这样的领先公司,机器学习是关键。

在本小节中,你将深入了解机器学习模型和方法。

要选择一个最能代表 AI 不同领域关系的图示,通常可以考虑以下的关系

在机器学习中,模型是一个能够进行预测或决策的计算机程序。训练是让模型从数据中学习,以便它能够做出更好的预测和决策的过程。不同的模型为不同的任务进行训练。

机器学习有两种方法: 监督学习和非监督学习

监督学习常用于进行预测或决策

监督学习使用带有标签的数据。

无监督学习试图在无标签数据中发现模式和关系。

受人脑处理信息方式的启发,人工神经网络能够从数据中学习。

深度学习是一种具有多层神经网络的机器学习模型。深度学习模型需要大量的训练数据,并且在图像识别、自然语言处理和提供更准确的预测等任务中非常有效。

3,如何使用机器学习

机器学习(ML)工具正在提升今天数据驱动世界中的决策制定和创新。

在本小节中,我们将介绍这三种主要的判别性 AI 类型及其在现实世界中的应用。

  • 回归
    • 线性回归(Linear Regression)
      • 假设输入特征与输出目标之间存在线性关系。

      • 目标是找到最佳拟合线,使得预测值与实际值之间的误差最小化。

    • 多项式回归(Polynomial Regression)
      • 扩展线性回归,允许通过多项式关系建模更复杂的数据模式。

    • 岭回归(Ridge Regression)
      • 在回归模型中加入正则化项,防止过拟合,适用于特征间存在多重共线性的情况。

    • 套索回归(Lasso Regression)
      • 也加入正则化项,但会进行特征选择,通过将一些特征的系数缩减为零来简化模型。

    • 支持向量回归(SVR, Support Vector Regression)
      • 通过支持向量机的原理进行回归,适用于非线性回归问题。

回归模型广泛应用于各种实际问题,如房价预测、销售量预测、经济指标分析等。

举个小例子

回归模型基于带标签的数据进行数值预测。上述模型通过训练过去的汽车里程和使用数据,来预测车辆的使用寿命。


  • 分类
    • 二分类(Binary Classification):
      • 将数据分为两个类别。例如,垃圾邮件检测(垃圾邮件或正常邮件)、疾病诊断(患病或未患病)。

    • 多分类(Multiclass Classification):
      • 将数据分为多个类别。例如,手写数字识别(0到9的数字)、图像分类(猫、狗、鸟等)。

    • 多标签分类(Multilabel Classification)
      • 每个样本可以属于多个类别。例如,图像标签(同一张图像可能同时包含“海洋”、“沙滩”和“日落”标签)。

  • 常见分类算法
    • 逻辑回归(Logistic Regression)
      • 线性模型,用于二分类问题,通过计算样本属于每个类别的概率来进行预测。

    • 决策树(Decision Trees)
      • 使用树形结构来进行分类,每个节点表示一个特征,每个分支表示一个特征值的选择,叶节点表示最终的类别。

    • 随机森林(Random Forest)
      • 由多棵决策树组成的集成模型,通过投票机制得到最终的分类结果。

    • 支持向量机(Support Vector Machine, SVM)
      • 通过找到一个最优超平面将不同类别的样本分开,适用于线性和非线性分类问题。

    • k-近邻算法(k-Nearest Neighbors, k-NN)
      • 基于距离度量将样本分配到最接近的 k 个邻居的类别中。

    • 朴素贝叶斯(Naive Bayes)
      • 基于贝叶斯定理和特征条件独立性假设进行分类,适用于文本分类和垃圾邮件检测等问题。

分类模型广泛应用于许多实际问题,例如图像分类、情感分析、医疗诊断和客户细分等。

举个例子

分类模型根据事物的特征为其分配标签。想象一下,你正在整理衣服以适应温暖或寒冷的天气。分类模型的输出是标签的预测。示例模型根据标记数据将衣服分类为暖色或冷色。与回归一样,分类也可以使用多种特征来做出更好的预测。分类可以使用任意数量的标签。假设您正在整理四个季节的衣柜。那么标签就变成了四个季节:

与回归一样,分类也可以使用多个特征来做出更好的预测。

  • 聚类
    • k-均值聚类(k-Means Clustering):
      • 将数据分为
        kk 个簇,通过迭代优化簇的中心点,使得每个簇内的样本与簇中心的距离最小。适用于数据量大且簇数已知的情况。

    • 层次聚类(Hierarchical Clustering):
      • 构建数据的层次树状结构(树状图),可以选择自底向上(凝聚层次聚类)或自顶向下(分裂层次聚类)的方法来进行聚类。适用于不知道簇数的情况。

    • 密度聚类(Density-Based Clustering):
      • 根据数据点的密度来识别簇,能够处理任意形状的簇,并能自动检测噪声。常用的算法包括 DBSCAN(密度峰值聚类算法)和 OPTICS(排序的可扩展聚类)。

    • 均值漂移聚类(Mean Shift Clustering):
      • 通过移动数据点到密度最高的区域来发现簇,不需要预先指定簇的数量。适用于复杂的簇形状。

    • 高斯混合模型(Gaussian Mixture Model, GMM):
      • 假设数据是由多个高斯分布混合而成,通过期望最大化(EM)算法来估计每个高斯分布的参数,从而进行聚类。

  • 聚类应用
    • 客户细分:根据客户行为将客户分组,以便于制定针对性的营销策略。
    • 图像分割:在图像处理中,将像素分组以识别不同的区域或物体。
    • 异常检测:通过检测与大多数数据不同的异常簇来发现异常数据。
    • 文档聚类:将相似的文档分组,有助于信息检索和文本挖掘。

聚类模型根据它们发现的相似性对未标记的数据进行分组。按照这个电影推荐模型,哪一组电影会被推荐给喜欢《泰坦尼克号》的观众呢?

 4 机器学习实战

使用生成式AI,训练简单的机器学习模型比以往任何时候都更容易!

在本小节中,你将扮演一位生态学家的角色,并使用AI预测气候变化将如何影响一个在小岛上筑巢的鸟群。

每年,一群鸟都会返回同一个岛屿筑巢。在过去的50年里,志愿者们统计了这个鸟群的数量,并记录了岛上的平均气温。

你注意到,当平均气温发生变化时,鸟的数量也会随之变化。你希望通过测量气温,利用机器学习来预测未来的鸟群数量。

首先这应该是一个回归问题对吧

该数据集包含了50年间的平均气温和鸟群数量的信息。数据包括两列——“平均气温”和“数量”。

以下是数据集中前几行的详细信息:

  • 第1年,平均气温:11.7°C,数量:1020只

  • 第2年,平均气温:10.8°C,数量:1007只

  • 第3年,平均气温:12.0°C,数量:966只

  • 第4年,平均气温:13.3°C,数量:828只

  • 第5年,平均气温:10.6°C,数量:922只

这个数据集展示了多年来平均气温的变化及其与鸟群数量变化的关系。

可视化数据是识别模式的重要第一步。AI可以帮助创建数据可视化。让我们试试看吧!

可视化数据中的关系是分析过程的一个良好起点。

回归模型通过分析数据来寻找模式。不同类型的回归模型使用不同的线来最好地匹配数据。你可以尝试使用这两种回归模型进行实验。

您现在可以使用回归来进行预测。当平均气温为 16°C 时,对鸟类数量的良好预测将是250对吧

机器学习模型的预测并不总是与原始数据完美匹配。测量真实数据和预测之间的误差可以告诉您模型的表现如何。较小的误差意味着模型更准确

R²评分是一种衡量回归模型拟合优度的方法,用于比较不同的回归模型。R²值越高,表示模型的拟合程度越好,误差越小。

AI可以快速计算R²值,并比较不同的回归模型,以帮助你选择最佳模型。

正如你所看到的,随着多项式回归模型的度数增加,R²值也在增加,这表明对数据的拟合度更好。最高的R²值是通过6次多项式回归模型获得的,达到了0.98,这表明自变量和因变量之间的关系非常强。

虽然最高的R²值表明模型对数据的拟合程度较好,但这并不总是意味着这是最佳选择。过拟合发生在模型变得不必要的复杂时。一个好的模型应该捕捉数据中的潜在模式,而不是过于贴合训练数据。

人工智能可以轻松创建和训练回归模型,但仍然需要人类的洞察力和直觉来做出有意义的预测。

5 总结

这就是关于2024初学者机器学习的教程的全部内容,后续我们会聊聊基础算法,学习更多回归、分类、聚类算法(如决策树、随机森林、支持向量机、K-均值聚类等)。探索深度学习基础,如神经网络、卷积神经网络(CNN)、递归神经网络(RNN)等。参与实际项目,应用所学知识解决真实问题。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐