摘要: 基本思路 我们第一次实现是选取了十个基本变量作为特征,训练集里NaN的值全都填了0。 仔细想想,可以多选取几个变量,这样或许能提高预测的正确率。 具体实现 首先,我输出了15个关系度比较大的变量,其中,"YearRemodAdd","Fireplaces","BsmtFinSF1"是三个有价值的变量 阅读全文
posted @ 2023-10-09 20:14 byxiaobai 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 第一步,将数据集仅保留十个关键变量,其他变量删掉。 # 选择要保留的列 selected_columns = ["SalePrice","OverallQual", "GrLivArea", "GarageCars", "TotalBsmtSF", "1stFlrSF", "FullBath", " 阅读全文
posted @ 2023-10-09 20:01 byxiaobai 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 猜想之前 在考虑使用什么模型之前,我们先看评分标准和数据特点 Kaggle给的评测标准是用"均方根误差",可以联想到,可能是一个线性回归问题。 看一下数据情况 从常识上考虑,这些数据基本都是跟房屋价格线性相关的,其中决定性的可能是房屋面积和装修好坏 猜想 我觉得地皮面积可能跟房价有关系 为了显示地皮 阅读全文
posted @ 2023-10-09 08:55 byxiaobai 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 环境搭建 1.打开Kaggle相关比赛的地址,找到Data一栏,下载数据,需要train.csv和test.csv 2.用cmd在创建的目录下打开notebook,指令:jupyter notebook 3.测试读取数据 import numpy as np import pandas as pd 阅读全文
posted @ 2023-10-09 08:41 byxiaobai 阅读(18) 评论(0) 推荐(0) 编辑