【House Prices】程序改进

基本思路

我们第一次实现是选取了十个基本变量作为特征，训练集里NaN的值全都填了0。

仔细想想，可以多选取几个变量，这样或许能提高预测的正确率。

具体实现

首先，我输出了15个关系度比较大的变量，其中，"YearRemodAdd"，"Fireplaces"，"BsmtFinSF1"是三个有价值的变量，可以尝试加进去看看效果

于是，我先增加了"Fireplaces"作为一个新特征，发现分数确实提高了一些，交叉验证也从0.75变成了0.76分。

然后，我又想把BsmtFinSF1作为一个特征加进去，所以先看了一下取值。

结果与反思

喜提0.6分，还不如第一次

仔细想想，实际上我训练出的模型就是一个数学公式，增加这些0.3 0.4相关度的东西反而会导致计算不精确。也许下一次可以试试少一个变量

尝试删除了两个变量，只保留八个变量后，分数比12个变量好，但是比10个变量差很多。

我重新考虑了一下，也许可以从NaN值入手。但是也没有效果。

看了一下大佬的思路，没人用线性回归模型做这东西，线性回归模型只能用来参考一下最差分数。

posted @ 2023-10-09 20:14 byxiaobai 阅读(26) 评论(0) 收藏举报

刷新页面返回顶部

探索技术本身