admin管理员组文章数量:1032049
随机森林与极度随机化树
1. 简介
在本教程中,我们将回顾随机森林 (RF) 和极端随机树 (ET):它们是什么、它们的结构以及它们有何不同。
2. 定义
随机森林和极端随机树属于一类称为集成学习算法的算法。集成学习算法利用许多学习算法的强大功能来执行任务。例如,在分类任务中,集成学习算法可以聚合来自多个不同分类器的预测以进行最终预测。
这个概念是基于这样一种观念,即使用多种学习算法可以导致更好的最终预测。接下来,让我们详细看看随机森林和极端随机树。
3. 随机森林
当我们谈论随机森林时,我们指的是由多个决策树组成的学习算法。随机森林在训练期间针对训练数据的不同子集构建多个决策树(一个森林)。同样,想法仍然是一样的,几个组合树的结果可能比单个树的结果更好。
给定具有多个特征的数据集,RF 算法将从数据集中对具有不同特征的观测值子集进行采样。在此子集上构造决策树。这种使用替换对子集进行采样的过程称为引导。
请注意,在构建决策树时,RF 将在每个节点上选择最佳拆分。接下来,对具有不同特征的不同数据子集重复此过程,直到构建了指定数量的树。
从所有树中获得结果后,将通过多数投票进行分类或平均回归获得最终预测。例如,让我们考虑一个包含六棵树的 RF 分类任务。假设其中五棵树预测类 0。根据多数投票,最终类被分配为 0:
3.1. 优点和缺点
随机森林是健壮的,在回归和分类任务上都运行良好。此外,RF 算法适用于大型数据集和不同的数据类型,例如数字、二进制和分类。
但是,当树的数量较多时,复杂度和计算时间相对较高,导致训练时间较长。此外,子集的抽样可能会引入一些偏差。
3.2. 应用程序
射频几乎可以应用于任何分类或回归任务。但是,常见的应用领域是遥感、股票市场预测、欺诈预测、情绪分析和产品推荐。
4. 极度随机的树
极端随机树,也称为额外树,在整个数据集的训练期间构建多个树,如射频算法。在训练期间,ET 将在数据集中的每个观测值上构建树,但具有不同的特征子集。
需要注意的是,虽然 ET 的原始结构中没有实现引导,但我们可以在一些实现中添加它。此外,在构建每个决策树时,ET算法随机拆分节点。
4.1. 优点和缺点
额外树的主要优点是减少了偏差。这是在树的构建过程中从整个数据集中采样。数据的不同子集可能会在获得的结果中引入不同的偏差,因此额外树通过对整个数据集进行采样来防止这种情况。
额外树的另一个优点是它们减少了方差。这是决策树中节点随机拆分的结果,因此算法不受数据集中某些特征或模式的严重影响。
4.2. 应用程序
同样,我们可以将额外树应用于分类和回归任务,如随机森林。在某些情况下,额外树也用于功能选择。在这里,额外树分类器用于选择最重要的特征。
5. 异同
RF和ET的相似之处在于它们都构建了多个决策树以用于手头的任务,无论是分类还是回归。但是,两者之间存在细微的区别。
让我们看看这些:
6. 结论
在本教程中,我们回顾了随机森林和极端随机树。随机森林在数据的自举子集上构建多个决策树,而额外树算法在整个数据集上构建多个决策树。此外,RF 选择要拆分的最佳节点,而 ET 随机化节点拆分。
最重要的是,选择使用哪一个始终取决于可用的数据集和手头的任务。
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。 原始发表:2023-02-20,如有侵权请联系 cloudcommunity@tencent 删除决策树二进制教程数据算法随机森林与极度随机化树
1. 简介
在本教程中,我们将回顾随机森林 (RF) 和极端随机树 (ET):它们是什么、它们的结构以及它们有何不同。
2. 定义
随机森林和极端随机树属于一类称为集成学习算法的算法。集成学习算法利用许多学习算法的强大功能来执行任务。例如,在分类任务中,集成学习算法可以聚合来自多个不同分类器的预测以进行最终预测。
这个概念是基于这样一种观念,即使用多种学习算法可以导致更好的最终预测。接下来,让我们详细看看随机森林和极端随机树。
3. 随机森林
当我们谈论随机森林时,我们指的是由多个决策树组成的学习算法。随机森林在训练期间针对训练数据的不同子集构建多个决策树(一个森林)。同样,想法仍然是一样的,几个组合树的结果可能比单个树的结果更好。
给定具有多个特征的数据集,RF 算法将从数据集中对具有不同特征的观测值子集进行采样。在此子集上构造决策树。这种使用替换对子集进行采样的过程称为引导。
请注意,在构建决策树时,RF 将在每个节点上选择最佳拆分。接下来,对具有不同特征的不同数据子集重复此过程,直到构建了指定数量的树。
从所有树中获得结果后,将通过多数投票进行分类或平均回归获得最终预测。例如,让我们考虑一个包含六棵树的 RF 分类任务。假设其中五棵树预测类 0。根据多数投票,最终类被分配为 0:
3.1. 优点和缺点
随机森林是健壮的,在回归和分类任务上都运行良好。此外,RF 算法适用于大型数据集和不同的数据类型,例如数字、二进制和分类。
但是,当树的数量较多时,复杂度和计算时间相对较高,导致训练时间较长。此外,子集的抽样可能会引入一些偏差。
3.2. 应用程序
射频几乎可以应用于任何分类或回归任务。但是,常见的应用领域是遥感、股票市场预测、欺诈预测、情绪分析和产品推荐。
4. 极度随机的树
极端随机树,也称为额外树,在整个数据集的训练期间构建多个树,如射频算法。在训练期间,ET 将在数据集中的每个观测值上构建树,但具有不同的特征子集。
需要注意的是,虽然 ET 的原始结构中没有实现引导,但我们可以在一些实现中添加它。此外,在构建每个决策树时,ET算法随机拆分节点。
4.1. 优点和缺点
额外树的主要优点是减少了偏差。这是在树的构建过程中从整个数据集中采样。数据的不同子集可能会在获得的结果中引入不同的偏差,因此额外树通过对整个数据集进行采样来防止这种情况。
额外树的另一个优点是它们减少了方差。这是决策树中节点随机拆分的结果,因此算法不受数据集中某些特征或模式的严重影响。
4.2. 应用程序
同样,我们可以将额外树应用于分类和回归任务,如随机森林。在某些情况下,额外树也用于功能选择。在这里,额外树分类器用于选择最重要的特征。
5. 异同
RF和ET的相似之处在于它们都构建了多个决策树以用于手头的任务,无论是分类还是回归。但是,两者之间存在细微的区别。
让我们看看这些:
6. 结论
在本教程中,我们回顾了随机森林和极端随机树。随机森林在数据的自举子集上构建多个决策树,而额外树算法在整个数据集上构建多个决策树。此外,RF 选择要拆分的最佳节点,而 ET 随机化节点拆分。
最重要的是,选择使用哪一个始终取决于可用的数据集和手头的任务。
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。 原始发表:2023-02-20,如有侵权请联系 cloudcommunity@tencent 删除决策树二进制教程数据算法本文标签: 随机森林与极度随机化树
版权声明:本文标题:随机森林与极度随机化树 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1747902761a2225283.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论