机器学习实战-端到端的机器学习项目
1、明确业务目标?
2、询问当前的解决方案?为什么不满足要求?
加州住房价格为例:
1、回答框架问题:监督学习,回归,在线学习更好(批量学习就可以胜任)。
多重回归问题:利用多个特征进行预测。
一元回归问题:预测每个区域的单个值。
2、选择性能指标:(这里和范数表达差不多)(0范数:非零个数 无穷范数:最大绝对值)
选择RMSE(均根方误差) 2范数
选择MAE(平均绝对误差) 1范数
选择MSE(均方误差)
注意:钟形分布很适合使用RMSE
3、检查假设:和下游任务进行充分的沟通,例如:最后你估计出来价格之后,下游任务还得转化成廉价、中等、昂贵,那你岂不是做了很多无用工作。 最终这里还是预测价格
4、获取数据:
最好windows打开管理员shell进行操作比较方便咯。!
python -m # 作为一个模块进行运行
pip install --user --upgrade pip # --user获取user权限
python -m virtualenv my_env
.\my_env\Scripts\activate
housing = pd.csv(path) housing.head() housing.info() housing["A"].value_counts() # 查询分类值 housing.describe()
%matplotlib inline import matplotlinb.pyplot as plt housing.hist(bins=50,figsize=(20,15)) plt.show()
由此课件,median_house_val & age受限,需要重新搜寻相关数据。并且将不是钟形分布的转变为钟形分布。
这里专门提到:测试集的分布应该和总体的分布应该某些维度是相同的。
大体信息可视化,地理信息可视化,寻找相关性,实验不同数据组合
5.数据准备...