山东大学软件学院大数据2021级机器学习复习题整理

山东大学软件学院大数据2021级机器学习复习整理

SamWangSDU

1436人浏览 · 2024-02-27 16:06:42

SamWangSDU · 2024-02-27 16:06:42 发布

山东大学软件学院大数据2021级机器学习复习题整理

（纯个人整理，仅供参考）
（两天搞定机器学习——>机器学习两天搞定你）

文章目录

山东大学软件学院大数据2021级机器学习复习题整理

一、名词解释

1、测试集

测试集是在机器学习中用于评估模型性能的独立数据集。在模型训练完成后，使用测试集来评估模型在未知数据上的表现。

2、Bootstrap Samples

自助采样法，有放回地从训练集中做与样本容量相同次数的采样。

3、最大似然估计

一种参数估计方法，将参数视为未知但是值固定的常量，通过最大化似然来估计参数的值。

4、机器学习：

ML致力于研究如何通过计算的手段，利用经验来改善系统自身性能。
指对于某类任务T和性能度量P，一个计算机程序在T上以P衡量的性能随着经验E而自我完善，则称这个计算机程序在从经验E学习。

5、KNN

knn算法是一种分类算法，具体为选取样本点最近的k个邻居，以多数者的类型作为样本的类型。

6、聚类

将数据分成由相似的样本组成的多个簇的过程。

7、似然

用来描述已知随机变量的输出结果时，未知参数的可能取值。

8、概率

用来描述参数已知时，随机变量的输出结果。

9、剪枝

一种用来减少决策树中分支数量的技巧，以便提高模型的泛化能力。

10、监督学习

训练数据有标签的学习范式。（线性回归、SVM、决策树）
无监督学习：在训练数据中没有标签或类别信息。与监督学习不同，无监督学习的目标不是预测或分类特定的输出，而是通过模型发现数据中的结构、模式或规律。（K-means聚类）

11、线性可分

指一组二分类样本可以通过线性函数作为界限完整地分为两类。

12、MLP

具有多个隐藏层的感知机，可以用于处理非线性可分问题。

13、泛化能力

泛化能力描述了一个训练好的模型在未知数据集上的性能表现。

14、过拟合

模型在训练集上的误差很小，在测试集上的误差很大。
解决方法：降低模型复杂度、早停法、增大训练数据量、数据增强。

15、欠拟合

模型在训练集和测试集上的误差都很大。
解决方法：增大模型复杂度

16、贝叶斯决策的一般过程

在模式分类问题中，基于概率论中的贝叶斯公式来最小化分类误差，可以得到最小化误差率的分类规则，这被称为基于最小误差率的贝叶斯决策。

17、K-means的思想

算法首先随机选择k的对象，每个对象初始地代表了一个簇的中心。将剩余的每个簇根据其与各个簇中心的距离，将它划分到最近的簇，然后重新计算每个簇的中心。重复上述过程，直到簇不再发生变化。
k的初始化：人工确定

18、间隔

假设H代表分类线，H1和H2是两条平行于分类线H的直线，并且它们分别过每类中离分类线H最近的样本， H1和H2之间的距离叫做间隔。

19、激活函数

一类线性或非线性的函数，用于限制神经元输出的幅度。

20、独立同分布

如果一组随机变量中的任意变量之间的取值不会相互影响，那么它们就是相互独立的；如果他们还具有相同的概率分布，那么它们就是独立同分布的。

21、集成学习

集成学习使用一些方法来改变原始训练样本的分布，构建多个不同的学习器，然后将这些多个学习器结合起来完成学习任务，通常获得比单一学习器显著更优越的泛化性能。

22、Bagging

Bagging是一种集成学习方法，其核心思想是通过自助采样产生多个训练数据的随机子集，然后使用这些子集分别训练出不同的学习器，最后将这些学习器的结果进行组合，通常通过简单投票或简单平均等方式。

23、Boosting

Boosting是一种集成学习方法，其核心思想是通过串行训练多个弱学习器，每个弱学习器都试图纠正前面学习器的错误，最终将多个弱学习器组成一个强学习器来达到更好的性能。

24、Parzen窗

Parzen窗是一种非参数估计密度的方法，对于给定的数据集，Parzen窗将每个数据点处置于一个窗口内，并通过给予窗口内的点以权重，来估计该点处的概率密度。

25、奥卡姆剃刀原理

如果有两套理论都可以解释一件事情，用那个简单的理论。“若非必要，勿增实体”。

26、核函数

设X是输入空间，H是特征空间，如果存在一个从X到H的映射φ(x):X->H，
使得对于所有的x,y∈X，函数K(x,y)满足K(x,y) = φ(x)·φ(y)，则称K(x,y)为核函数。
核函数的作用：隐含着一个从低维空间到高维空间的映射，而这个映射可以将低维空间中线性不可分的两类点变成线性可分的。

27、期望风险

期望风险是全局概念，它是对所有样本，即对已知的训练样本加未知样本的预测能力。

28、经验风险

表示决策函数对训练数据集里的样本的预测能力，是模型关于训练样本集的平均损失。

29、结构风险

在经验风险的基础上加上表示模型复杂度的正则化项，防止发生过拟合。

30、SVM

SVM是一种用于分类和回归分析的算法。主要思想是通过找到一个最优的超平面，将不同类别的数据分开。
SVM的目标是找到一个能够在特征空间中正确分类且使得不同类别样本点之间间隔最大化的超平面。

31、支持向量

距离超平面最近的几个样本点使得wxi+b=1或wxi+b=-1成立，这些点被称为支持向量。

32、强化学习

强化学习是一种机器学习范式，通过代理与环境进行交互来学习如何做出一系列的动作以达到最大化累积奖励的目的。

33、线性回归

线性回归试图学得一个线性拟合函数以尽可能地拟合数据，并尽可能准确地预测数据。

简答题：

1、写出多层感知器的原理，以及BP（反向传播）的基本原理和优缺点。

多层感知机MLP是具有多个隐藏层的感知机，利用前向传播进行信息传递，再利用反向传播，传递误差，更新参数。
BP的基本原理：计算模型的损失函数，通过链式法则将损失从输出层向输入层传播，计算梯度信息，使用梯度下降法来更新神经网络的权重和偏置。
BP的优点：
1）具有强大的代表能力
2）应用广泛
3）容易实现
4）具有较好的泛化能力
BP的缺点：
1）学习通常要花费较长时间去收敛。
2）网络内部如同一个黑盒。
3）梯度下降法往往到达局部最优。
4）即使将误差降到0，泛化能力也不能得到保证。

2、K-means的基本过程和优缺点。

基本过程：算法首先随机选择k的对象，每个对象初始地代表了一个簇的中心。将剩余的每个簇根据其与各个簇中心的距离，将它划分到最近的簇，然后重新计算每个簇的中心。重复上述过程，直到簇不再发生变化。
优点：
1）算法简单。
2）对处理大数据集，K-means具有高效率。
缺点：
1）必须实现指定簇的数目K。
2）对于初值敏感，不同的初始值会导致不同的聚类结果。
3）对孤立点敏感，少量孤立点会对平均值产生很大影响。

3、简述Boosting的基本思想，比较Boosting和Bagging的异同。

基本思想：Boosting是一种集成学习方法，通过串行的训练多个弱学习器，每个学习器关注上一个学习器的错误，最终将所有学习器组合起来，构建一个性能更好的强学习器。
不同点：
1）Boosting的训练样本相同，但是权重可能不同；Bagging的训练样本不同。
2）Boosting的个体学习器之间存在强依赖关系，必须串行生成；Bagging的个体学习器可以同时生成。
3）Boosting的每个基学习器都有相应权重，加权结合；Bagging的基学习器通过简单投票或简单平均。
相同点：
1）都是通过训练并结合多个弱学习器，来提高整体模型的性能。

4、写出信息增益的公式，写出ID3的优缺点。

在这里插入图片描述

ID3的优点：选择信息增益大的属性作为划分属性，意味着划分后的子集有着更高的纯度，更小的不确定性。
ID3的缺点：信息增益对具有更多值的属性存在偏好。

5、SVM如何解决线性不可分问题。

1）通过核函数将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间中线性可分。
2）“软间隔”SVM，有时线性不可分并不是因为数据的结构问题，而是噪音导致的。因此“软间隔”SVM允许部分数据不满足约束，即可以偏移超平面，同时使不满足约束的数据点尽可能少。

6、写出SVM基本型的形式，写出基本思想以及过程。

在这里插入图片描述

7、写出SVM基本型的对偶形式，写出推导过程。

在这里插入图片描述

8、BP的推导过程

在这里插入图片描述

9、Adaboost中 $\alpha_t$ 的推导：

在这里插入图片描述

10、简述KNN的基本思想和优缺点。

KNN的基本思想是通过测量不同样本点之间的距离，来对新样本进行分类或预测。算法中的“K”表示取距离最近的K个邻居，通过他们的标签或平均值来确定新样本的标签或值。
基本流程如下：
1）计算新样本和所有样本的距离。
2）选取距离最近的K个样本。
3）根据这K个样本的标签进行分类（分类问题）或求平均（回归问题），得到新样本的预测结果。
优点：
1）简单直观，易于理解和实现。
2）对于多类别问题，KNN表现良好。
3）KNN是一种懒惰学习法，不需要训练。
缺点：
1）计算复杂度高，尤其当样本规模非常大时。
2）对异常值敏感，如果由异常值存在，可能导致结果出现偏差。
3）随着维度增加，距离计算变复杂，KNN性能可能下降。

11、KNN中K的选择。

k较大和较小的影响：
1）当k较小时，会为每个类创建很多小区域，导致决策边界不够平滑和过拟合。
2）当k较大时，会创建少量的大区域，通常会产生平滑的决策边界，降低噪音带来的影响。
如何选择：
1）k通常选择为奇数
2）1-NN通常有着较为不错的表现。
3）k往往小于样本容量的1/2次方。
4）可以通过交叉验证等方式选择最好的k。

12、简述ID3的优缺点以及决策树中如何防止过拟合。

ID3的优缺点。。。。。。
决策树中一般通过剪枝来防止过拟合，其余方法还包括早停法、验证集验证等。
ID3中通常使用减小误差剪枝，基本思想是使用验证集，重复以下步骤直到进一步的剪枝有害：
1）评估修剪每个可能节点对验证集的影响。
2）移除对验证集改善最大的点。

13、试比较神经网络和SVM。

1）神经网络隐藏层映射到较低维空间；SVM的核函数映射到高维空间。
2）神经网络搜索空间存在多个局部最小值；SVM搜索空间中仅有一个最小值。
3）神经网络的训练成本很高，而SVM的训练很高效。
4）神经网络和SVM对于分类都很高效。
5）神经网络需要大量的参数；SVM所需要的参数微乎其微。
6）神经网络和SVM在实际应用场景中都有很好的准确度。

14、如果激活函数为线性函数的缺陷。

1）导致神经网络缺乏非线性表示的能力。
2）线性激活函数在反向传播过程中容易导致梯度消失问题。

15、简述学习率的影响。

学习率决定了模型在每次迭代中权重的更新幅度。
如果学习率过大可能会导致：
1）权重的更新幅度会变得很大，模型在训练过程中无法收敛。
2）可能会导致模型在损失函数空间中不断震荡。
如果学习率过小可能会导致：
1）权重更新幅度很小，导致收敛很慢。
2）往往会导致模型陷入局部最优值。
学习率的设置技巧：
1）在最后几层的学习率应该被赋予比前面层更小的值。
2）具有很多输入的神经元应当比只有少量输入的神经元更小的学习率。
3）可以使用退火方法。

16、核函数的条件和作用。

核函数的条件：核函数必须是正定核函数。只要一个对称函数所对应的核矩阵半正定，就能作为核函数使用。
核函数的作用：核函数隐含了从低维空间到高维空间的映射，可以将在低维空间中线性不可分的两类点变成线性可分的。

17、软间隔和硬间隔的区别。

数据不能线性可分有时并不是因为数据本身是非线性结构的，而只是因为数据有噪音。对于这种偏离正常位置很远的数据点，称之为outlier，在原本的SVM模型中,outlier的存在可能造成很大影响，并且可能过拟合。
“软间隔”支持向量机：为解决这一问题，允许某些数据点不满足约束，即
1）可以在一定程度上偏移超平面。
2）同时使得不满足的约束的数据点尽可能少。
而所有样本都必须划分正确的，称为“硬间隔”。

18、解释训练误差和泛化误差，画图标出欠拟合和过拟合。

训练误差：模型在训练数据上的表现，衡量了模型对于训练数据的拟合程度。
泛化误差：模型在未见过的新数据上的性能表现，衡量了模型对于未知数据的拟合能力。
在这里插入图片描述

19、验证集有什么作用？如何使模型学习到全部数据？

通过将训练集中的一部分划分为验证集，可以在训练过程中对模型的泛化能力进行验证，以助于调整超参数、模型结构等，同时可以帮助及早发现过拟合问题。
如何使模型学习到全部数据？

20、为什么梯度下降选择负梯度优化目标函数？

梯度是目标函数在某点的方向导数，它指向函数在该点增长最快的方向。因此，选择梯度的负方向意味着在当前点沿着使目标函数值减小最快的方向进行更新，以朝着更小的目标函数值的方向移动。

21、C4.5对于ID3有哪些改进？

1）C4.5使用信息增益率来替代ID3中的信息增益，防止了对具有大量取值的属性的过度偏好。
2）C4.5可以通过离散化来处理连续特征。
3）C4.5可以处理缺失值。
4）C4.5中采用规则后剪枝，避免了过拟合。

22、从VC维、结构风险等角度说明为什么要使间隔最大？

1）VC是模型可以拟合数据的复杂性的度量，最大化间隔可以看作是一种对模型复杂性的控制，更大化的间隔有助于降低模型的VC维，减少过拟合风险。
2）结构风险是经验风险和正则化项的结合，最大化间隔相当于一种正则化形式，通过最大化间隔，可以实现结构风险最小化的目标。

23、决策树的思想是什么？可以分为哪两类？

决策树的思想是通过对数据集进行递归的二分划分，基于特征的取值来构建一个树形结构，使得在每个节点上都能做出对应于某个特征的决策。
分类树和回归树

24、简述留出法和交叉验证法：

1）留出法：将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计。
2）交叉验证法：将数据集D划分为k个大小相似的互斥子集，每个子集尽可能保持数据分布的一致性，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集。

25、简述偏差和方差的概念

1）偏差：学习算法中错误假设造成的误差。偏差度量了学习算法的预期期望和真实结果的偏离程度，即学习算法本身的拟合能力。
2）方差：灵敏度对训练集中小波动的误差。方差同样度量了同样大小的数据集变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。

26、贝叶斯的基本思想和过程。

已知类条件概率密度参数表达式和先验概率，利用贝叶斯公式转换成后验概率，根据后验概率大小进行分类决策。
过程：
1）估计类条件概率密度P(x|wi)
2）估计先验概率P(wi)
3）决策代价 $\lambda_{ij}$
4）计算错误率
5）判断大小

技术共进，成长同行——讯飞AI开发者社区

更多推荐

Gemini Robotics 1.5 谷歌通用人形机器人具身智能模型

讯飞AI开发者社区

《企业大模型实战》发布：核心技术详解与行业赋能，程序员必备的全方位参考指南！

讯飞AI开发者社区

679章:人工智能的定义

人工智能（Artificial Intelligence, AI）指通过计算机系统模拟人类智能的技术，涵盖学习、推理、感知、决策等能力。其核心目标包括实现机器自主解决问题、适应环境及优化任务执行。

讯飞AI开发者社区

所有评论(0)

查看更多评论

SamWangSDU

@weixin_63184383

已为社区贡献5条内容

山东大学软件学院大数据2021级机器学习复习题整理

SamWangSDU

山东大学软件学院大数据2021级机器学习复习题整理

文章目录

一、名词解释

1、测试集

2、Bootstrap Samples

3、最大似然估计

4、机器学习：

5、KNN

6、聚类

7、似然

8、概率

9、剪枝

10、监督学习

11、线性可分

12、MLP

13、泛化能力

14、过拟合

15、欠拟合

16、贝叶斯决策的一般过程

17、K-means的思想

18、间隔

19、激活函数

20、独立同分布

21、集成学习

22、Bagging

23、Boosting

24、Parzen窗

25、奥卡姆剃刀原理

26、核函数

27、期望风险

28、经验风险

29、结构风险

30、SVM

31、支持向量

32、强化学习

33、线性回归

简答题：

1、写出多层感知器的原理，以及BP（反向传播）的基本原理和优缺点。

2、K-means的基本过程和优缺点。

3、简述Boosting的基本思想，比较Boosting和Bagging的异同。

4、写出信息增益的公式，写出ID3的优缺点。

5、SVM如何解决线性不可分问题。

6、写出SVM基本型的形式，写出基本思想以及过程。

7、写出SVM基本型的对偶形式，写出推导过程。

8、BP的推导过程

9、Adaboost中 α t \alpha_t αt​的推导：

10、简述KNN的基本思想和优缺点。

11、KNN中K的选择。

12、简述ID3的优缺点以及决策树中如何防止过拟合。

13、试比较神经网络和SVM。

14、如果激活函数为线性函数的缺陷。

15、简述学习率的影响。

16、核函数的条件和作用。

17、软间隔和硬间隔的区别。

18、解释训练误差和泛化误差，画图标出欠拟合和过拟合。

19、验证集有什么作用？如何使模型学习到全部数据？

20、为什么梯度下降选择负梯度优化目标函数？

21、C4.5对于ID3有哪些改进？

22、从VC维、结构风险等角度说明为什么要使间隔最大？

23、决策树的思想是什么？可以分为哪两类？

24、简述留出法和交叉验证法：

25、简述偏差和方差的概念

26、贝叶斯的基本思想和过程。

所有评论(0)

SamWangSDU

9、Adaboost中 $\alpha_t$ 的推导：