Kaggle-intro-to-machine-learning(1)

How-models-work

我们将从机器学习模型如何工作以及如何使用的概述开始。如果您之前已经进行过统计建模或机器学习,则这可能很基础。不用担心,我们将尽快建立强大的模型。

通过此微课程,可以在经历以下场景时构建模型:

你的堂兄已经赚了数百万美元,投机房地产。由于您对数据科学的兴趣,他愿意与您成为业务合作伙伴。他将提供资金,并且您将提供可预测各种房屋价值的模型。

您问您的堂兄,他过去如何预测房地产价值。他说这只是直觉。但是更多的质疑显示他从过去的房屋中识别出了价格模式,然后他利用这些模式对他正在考虑的新房屋做出预测。

机器学习的工作方式相同。我们将从称为决策树的模型开始。有更高级的模型可以提供更准确的预测。但是决策树很容易理解,它们是数据科学中一些最佳模型的基本构建块。

为简单起见,我们将从最简单的决策树开始。

 

 

 它将房屋仅分为两类。 所考虑的任何房屋的预测价格为同一类别房屋的历史平均价格。
我们使用数据来决定如何将房屋分为两组,然后再次确定每组中的预测价格。 从数据捕获模式的这一步骤称为拟合或训练模型。 用于拟合模型的数据称为训练数据。
有关模型拟合方式的详细信息(例如如何拆分数据)非常复杂,我们将其保存以备后用。 模型拟合后,您可以将其应用于新数据,以预测其他房屋的价格。

Improving the Decision Tree

 

 实际情况下,左边的模型更加符合情形,但是还是有很多的不足,如没有说明房屋的位置,大小,有没有阳台等待,所以为了更好的预测,往往需要更深的树

 

您可以通过跟踪决策树来预测任何房屋的价格,并始终选择与房屋特征相对应的路径。 房屋的预计价格在树的底部。 我们进行预测的底部点称为叶子。

叶子上的拆分和值将由数据确定,因此是时候检查要使用的数据了。

 

 

 

 

 

 

 

posted @ 2020-08-05 23:26  caishunzhe  阅读(186)  评论(0编辑  收藏  举报