【机器学习(十七)】零代码开发之XGBoost算法-Sentosa_DSML社区版

XGBoost实现的是一种通用的Tree Boosting算法，此算法的一个代表为梯度提升决策树（Gradient Boosting Decision Tree, GBDT），其原理是首先使用训练集和样本真值训练一棵树(指CART回归树，是一个二叉树，根据基尼指数选取根节点和每个叶子节点所生成的一个树)，然后使用这棵树预测训练集，得到每个样本的预测值，由于预测值与真值存在偏差，所以二者相减可以得到“残差”。接下来训练第二棵树，此时不再使用真值，而是使用残差作为标准答案。两棵树训练完成后，可以再次得到每个样本的残差，然后进一步训练第三棵树，以此类推。树的总棵数可以人为指定，也可以监控某些指标（例如验证集上的误差）来停止训练。

在预测新样本时，每棵树都会有一个输出值，将这些输出值相加，即得到样本最终的预测值。

相较于GBDT算法，xgboost的改进之处在于以下几点：

a.引进了正则项，具有预剪枝、防止模型过拟合的作用；

b.使用泰勒二次展开项对目标函数近似求解，速度更快，效率更高，同时支持自定义目标函数，只要函数可二阶求导；

c.能自动处理缺失值，xgb处理缺失值的方法是将缺失值单独作为一类处理，在节点分裂时根据提升度大小决定归类于左叶子节点或者右叶子节点；

d.支持并行化计算，xgb会对特征变量做预排序，并将结果保存为block模块储存在硬盘中，树分裂时调用多线程对多个特征变量做运算，极大的提高了计算速度。另外，不同于GBDT在分裂时使用贪心算法逐个计算信息增益或信息熵，xgb会计算特征变量分位点，并给出特征值对应的分裂权重，使用近似贪心算法在特征分裂时能减少计算量，提升效率。

二、算法原理

首先明确算法的目标：希望建立K个回归树，使得树群的预测值尽量接近真实值（准确率）而且有尽量大的泛化能力，从数学角度看这是一个泛函最优化，XGBOOST的目标函数为：

其中i表示第i个样本，表示第i个样本的预测误差，误差越小越好。后面

表示树的复杂度的函数，越小复杂度越低，泛化能力越强，表达式为：

其中，T表示叶子节点的个数，w表示节点的数值(这是回归树的东西，分类树对应的是类别。

一般的目标函数都包含下面两项：

其中，误差/损失函数鼓励我们的模型尽量去拟合训练数据，使得最后的模型会有比较少的偏差。而正则化项则鼓励更加简单的模型。因为当模型简单之后，有限数据拟合出来结果的随机性比较小，不容易过拟合，使得最后模型的预测更加稳定。

直观上看，目标函数要求预测误差尽量小，叶子节点尽量少，节点数值尽量不极端（这个怎么看，如果某个样本数值为4，那么第一个回归树预测为3，第二个预测为1；另外一组回归树，一个预测2，一个预测2，那么倾向后一种，为什么呢？前一种情况，第一棵树学的太多，太接近4，也就意味着有较大的过拟合的风险）

那怎么实现呢？其通过贪心策略+最优化（二次最优化）

贪心算法分裂的方式是一种暴力搜索的方式，遍历每一个特征，遍历该特征的每一个取值，计算分裂前后的增益，选择增益最大的特征取值作为分裂点(树的节点)。

这里是怎么用贪心策略的呢，刚开始你有一群样本，放在第一个节点，这时候T=1，w是多少呢，不知道，是求出来的，这时候所有样本的预测值都是w（决策树的节点表示类别，回归树的节点表示预测值）,带入样本的预测值此时损失函数变为：

如果这里的误差表示用的是平方误差，那么上述函数就是一个关于w的二次函数求最小值，取最小值的点就是这个节点的预测值，最小的函数值为最小损失函数。

以上式子将目标函数转成了二次函数最优化问题。若不是二次函数将使用泰勒公式转成二次函数。目标函数已经确定好了，接下来要选个特征分裂成两个节点，变成一棵弱小的树苗，那么需要：

（1）确定分裂用的特征，关于选取特征最简单的是粗暴的枚举（遍历所有特征），选择损失函数效果最好的那个；

（2）通过二次函数求最值的方式（二次函数求导为0 ）确定节点的预测值以及最小的损失函数。

在分裂的时候，每次节点分裂，损失函数被影响的只有这个节点的样本，因而每次分裂，计算分裂的增益（损失函数的降低量）只需要关注打算分裂的那个节点的样本。继续分裂，按照上述的方式，形成一棵树，再形成一棵树，每次在上一次的预测基础上取最优进一步分裂/建树。

当出现一下情况时就停止节点的分裂：

（1）当引入的分裂带来的增益小于一个阀值的时候，我们可以剪掉这个分裂，所以并不是每一次分裂损失函数整体都会增加的，有点预剪枝的意思；

（2）当树达到最大深度时则停止建立决策树，设置一个超参数max_depth，因为树太深很容易出现的情况学习局部样本，过拟合；

（3）当样本权重和小于设定阈值时则停止建树，解释一下，涉及到一个超参数-最小的样本权重和min_child_weight，和GBM的 min_child_leaf 参数类似，但不完全一样，大意就是一个叶子节点样本太少了，也终止同样是过拟合；

三、Sentosa_DSML社区版实现

主要根据模型搭建的流程，利用Sentosa_DSML社区版完成机器学习算法。

（一）数据加载

（二）样本分区

连接类型和样本分区算子，划分训练集和测试集数据。

首先，连接样本分区算子可以选择数据训练集和测试集划分比例。

右键预览可以看到数据划分结果。

其次，连接类型算子将Species列的模型类型设为Label标签列。

（三）模型训练

样本分区完成后，连接XGBoost分类算子，双击在右侧进行模型属性配置。

（四）模型评估

利用评估算子对模型进行评估

训练集评估结果

测试集评估结果

（五）模型可视化

四、XGBoost分类任务实现对比

（一）数据加载和样本分区

数据加载和样本分区同上

（二）模型训练

样本分区完成后，连接XGBoost回归算子，进行模型属性配置并执行，得到XGBoost回归模型。

（三）模型评估

利用评估算子对模型进行评估

训练集评估结果

测试集评估结果

（四）模型可视化

右键XGBoost回归模型即可查看模型信息：

五、总结

相比传统代码方式，利用Sentosa_DSML社区版完成机器学习算法的流程更加高效和自动化，传统方式需要手动编写大量代码来处理数据清洗、特征工程、模型训练与评估，而在Sentosa_DSML社区版中，这些步骤可以通过可视化界面、预构建模块和自动化流程来简化，有效的降低了技术门槛，非专业开发者也能通过拖拽和配置的方式开发应用，减少了对专业开发人员的依赖。

Sentosa_DSML社区版提供了易于配置的算子流，减少了编写和调试代码的时间，并提升了模型开发和部署的效率，由于应用的结构更清晰，维护和更新变得更加容易，且平台通常会提供版本控制和更新功能，使得应用的持续改进更为便捷。

Sentosa数据科学与机器学习平台（Sentosa_DSML）是力维智联完全自主知识产权的一站式人工智能开发部署应用平台，可同时支持零代码“拖拉拽”与notebook交互式开发，旨在通过低代码方式帮助客户实现AI算法模型的开发、评估与部署，结合完善的数据资产化管理模式与开箱即用的简捷部署支持，可赋能企业、城市、高校、科研院所等不同客户群体，实现AI普惠、化繁为简。

Sentosa_DSML产品由1+3个平台组成，以数据魔方平台（Sentosa_DC）为主管理平台，三大功能平台包括机器学习平台（Sentosa_ML）、深度学习平台（Sentosa_DL）和知识图谱平台（Sentosa_KG）。力维智联凭借本产品入选“全国首批人工智能5A等级企业”，并牵头科技部2030AI项目的重要课题，同时服务于国内多家“双一流”高校及研究院所。

为了回馈社会，矢志推动全民AI普惠的实现，不遗余力地降低AI实践的门槛，让AI的福祉惠及每一个人，共创智慧未来。为广大师生学者、科研工作者及开发者提供学习、交流及实践机器学习技术，我们推出了一款轻量化安装且完全免费的Sentosa_DSML社区版软件，该软件包含了Sentosa数据科学与机器学习平台（Sentosa_DSML）中机器学习平台（Sentosa_ML）的大部分功能，以轻量化一键安装、永久免费使用、视频教学服务和社区论坛交流为主要特点，同样支持“拖拉拽”开发，旨在通过零代码方式帮助客户解决学习、生产和生活中的实际痛点问题。