爬升用于机器学习的测试集

发布时间：2021-04-01 11:55:26 所属栏目：传媒来源：互联网

导读：时不小心做的事情。通过开发一个明确的实现来爬升测试集，它有助于更好地了解通过过度使用测试数据集来评估建模管道而过度拟合测试数据集的难易程度。在本教程中，您将发现如何爬升用于机器学习的测试集。完成本教程后，您将知道：无需查看训练数据集，就

时不小心做的事情。通过开发一个明确的实现来爬升测试集，它有助于更好地了解通过过度使用测试数据集来评估建模管道而过度拟合测试数据集的难易程度。

在本教程中，您将发现如何爬升用于机器学习的测试集。完成本教程后，您将知道：

无需查看训练数据集，就可以通过爬上测试集来做出完美的预测。
如何为分类和回归任务爬坡测试集。
当我们过度使用测试集来评估建模管道时，我们暗中爬升了测试集。

教程概述

本教程分为五个部分。他们是：

爬坡测试仪
爬山算法
如何进行爬山
爬坡糖尿病分类数据集
爬坡房屋回归数据集

爬坡测试仪

像Kaggle上的机器学习比赛一样，机器学习比赛提供了完整的训练数据集以及测试集的输入。给定比赛的目的是预测目标值，例如测试集的标签或数值。针对隐藏的测试设置目标值评估解决方案，并进行适当评分。与测试集得分最高的参赛作品赢得了比赛。机器学习竞赛的挑战可以被定义为一个优化问题。传统上，竞赛参与者充当优化算法，探索导致不同组预测的不同建模管道，对预测进行评分，然后对管道进行更改以期望获得更高的分数。此过程也可以直接用优化算法建模，无需查看训练集就可以生成和评估候选预测。通常，这称为爬山测试集，作为解决此问题的最简单的优化算法之一就是爬山算法。尽管在实际的机器学习竞赛中应该正确地爬升测试集，但是实施该方法以了解该方法的局限性和过度安装测试集的危险可能是一个有趣的练习。此外，无需接触训练数据集就可以完美预测测试集的事实常常使很多初学者机器学习从业人员感到震惊。最重要的是，当我们反复评估不同的建模管道时，我们暗中爬升了测试集。风险是测试集的分数得到了提高，但代价是泛化误差增加，即在更广泛的问题上表现较差。进行机器学习竞赛的人们都非常清楚这个问题，并且对预测评估施加了限制以应对该问题，例如将评估限制为每天一次或几次，并在测试集的隐藏子集而不是整个测试集上报告分数。。有关更多信息，请参阅进一步阅读部分中列出的论文。接下来，让我们看看如何实施爬坡算法来优化测试集的预测。

爬山算法

爬山算法是一种非常简单的优化算法。它涉及生成候选解决方案并进行评估。然后是逐步改进的起点，直到无法实现进一步的改进，或者我们用光了时间，资源或兴趣。从现有候选解决方案中生成新的候选解决方案。通常，这涉及对候选解决方案进行单个更改，对其进行评估，并且如果候选解决方案与先前的当前解决方案一样好或更好，则将该候选解决方案接受为新的“当前”解决方案。否则，将其丢弃。我们可能会认为只接受分数更高的候选人是一个好主意。对于许多简单问题，这是一种合理的方法，尽管在更复杂的问题上，希望接受具有相同分数的不同候选者，以帮助搜索过程缩放要素空间中的平坦

（编辑：开发网_郴州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!