机器学习过程

机器学习架构方法论

数据预处理

探索数据

  1. 数据的存储格式csv,xls等,每行每列存储的是什么内容
  2. 数据的内容,有哪些特征,特征是文本还是数字,是离散还是连续
    3.数据的取值范围某几个数据的取值是什么,数据值的分布是什么?

数据处理

  1. 对数转换,数据若是非正态分布,进行对数转换;算法的假设
  2. 归一化,把不同特征数据的值域转换到相似区间,避免算法无法收敛
  3. 独热编码,转换string到向量,简单编码方式

pandas & numpy

机器学习算法

调用模型

  1. sklearn三部曲
    reg= xx_model(para=xx)
    reg.fit(X,y)
    res = reg.predict(X')

模型评价指标

precision,recall,F1等 r square ,acuracy
周志华 机器学习第二章

不同模型的比较

得到最终模型

模型调参

特征选择

  1. 维度灾难
  2. 专业知识
  3. 算法结构比较

得到最终模型

posted @ 2017-11-12 13:15  james.yj  阅读(178)  评论(0编辑  收藏  举报