机器学习实战-端到端的机器学习项目

1、明确业务目标?

2、询问当前的解决方案?为什么不满足要求?

加州住房价格为例:

1、回答框架问题:监督学习,回归,在线学习更好(批量学习就可以胜任)。

多重回归问题:利用多个特征进行预测。

一元回归问题:预测每个区域的单个值。

2、选择性能指标:(这里和范数表达差不多)(0范数:非零个数  无穷范数:最大绝对值)

选择RMSE(均根方误差)   2范数

选择MAE(平均绝对误差) 1范数

选择MSE(均方误差)

 

注意:钟形分布很适合使用RMSE

 3、检查假设:和下游任务进行充分的沟通,例如:最后你估计出来价格之后,下游任务还得转化成廉价、中等、昂贵,那你岂不是做了很多无用工作。 最终这里还是预测价格

4、获取数据:

最好windows打开管理员shell进行操作比较方便咯。!

python -m # 作为一个模块进行运行

pip install --user  --upgrade pip # --user获取user权限

python -m virtualenv my_env

 

 

 .\my_env\Scripts\activate

housing = pd.csv(path)
housing.head()  
housing.info()
housing["A"].value_counts()  # 查询分类值
housing.describe()
%matplotlib inline
import matplotlinb.pyplot as plt
housing.hist(bins=50,figsize=(20,15))
plt.show()

  

 

由此课件,median_house_val & age受限,需要重新搜寻相关数据。并且将不是钟形分布的转变为钟形分布。

 这里专门提到:测试集的分布应该和总体的分布应该某些维度是相同的。

大体信息可视化,地理信息可视化,寻找相关性,实验不同数据组合

5.数据准备...

 

posted @ 2021-10-02 16:04  踏浪前行  阅读(112)  评论(0编辑  收藏  举报