【House Prices】程序改进

基本思路

我们第一次实现是选取了十个基本变量作为特征,训练集里NaN的值全都填了0。

仔细想想,可以多选取几个变量,这样或许能提高预测的正确率。

具体实现

首先,我输出了15个关系度比较大的变量,其中,"YearRemodAdd","Fireplaces","BsmtFinSF1"是三个有价值的变量,可以尝试加进去看看效果

于是,我先增加了"Fireplaces"作为一个新特征,发现分数确实提高了一些,交叉验证也从0.75变成了0.76分。

然后,我又想把BsmtFinSF1作为一个特征加进去,所以先看了一下取值。

结果与反思

喜提0.6分,还不如第一次

仔细想想,实际上我训练出的模型就是一个数学公式,增加这些0.3 0.4相关度的东西反而会导致计算不精确。也许下一次可以试试少一个变量

尝试删除了两个变量,只保留八个变量后,分数比12个变量好,但是比10个变量差很多。

我重新考虑了一下,也许可以从NaN值入手。但是也没有效果。

看了一下大佬的思路,没人用线性回归模型做这东西,线性回归模型只能用来参考一下最差分数。

 

posted @ 2023-10-09 20:14  byxiaobai  阅读(3)  评论(0编辑  收藏  举报