【House Prices】程序改进
基本思路
我们第一次实现是选取了十个基本变量作为特征,训练集里NaN的值全都填了0。
仔细想想,可以多选取几个变量,这样或许能提高预测的正确率。
具体实现
首先,我输出了15个关系度比较大的变量,其中,"YearRemodAdd","Fireplaces","BsmtFinSF1"是三个有价值的变量,可以尝试加进去看看效果
于是,我先增加了"Fireplaces"作为一个新特征,发现分数确实提高了一些,交叉验证也从0.75变成了0.76分。
然后,我又想把BsmtFinSF1作为一个特征加进去,所以先看了一下取值。
结果与反思
喜提0.6分,还不如第一次
仔细想想,实际上我训练出的模型就是一个数学公式,增加这些0.3 0.4相关度的东西反而会导致计算不精确。也许下一次可以试试少一个变量
尝试删除了两个变量,只保留八个变量后,分数比12个变量好,但是比10个变量差很多。
我重新考虑了一下,也许可以从NaN值入手。但是也没有效果。
看了一下大佬的思路,没人用线性回归模型做这东西,线性回归模型只能用来参考一下最差分数。