龟速机器学习总结----day1

机器学习主要工作大致分为以下几步,数据预处理,包括数据切分,特征选取,数据缺失值处理,来了解数据。接下来分割数据,分别分出训练集和测试集。第三步,选择模型,使用训练数据训练模型参数,再对测试数据进行预测,保存预测结果。第四步,对预测结果性能分析,根据分析结论调节参数。

pandas包处理数据,分析数据

numpy包提供高级的数学运算和高效的向量及矩阵运算能力

pandas.read_csv函数从互联网读取指定数据

查看data数据量和维度 data.shape

使用sklearn.cross_valiation中的train_test_split模块切分数据

训练模型参数前,标准化数据,保证每个维度的特征数据方差为1,均值为0.使得预测结果不会被某些过大的特征值主导(会不会说明什么问题?),这里使用sklearn.preprocessing中的X_train=StandardScaler.fit_transform(X_train)

 

觉得jupyter默认风格不太好看,搜了下如何个性化设置

pip install --jupyterthemes

jt -l#查询主题

……

期间遇到下载不成功的问题,除了是网渣渣,还有cannot remove****问题,解决***condone setuptools

还有就是 要把打开的notbook关掉!

不怕遇上事!一会可以安心吃晚饭了:)

posted @ 2018-08-24 16:39  崔露露  阅读(174)  评论(0编辑  收藏  举报