机器学习之基本概念
一、六个步骤
1、场景解析,即进行业务场景抽象,匹配业务和算法;
2、数据预处理,即进行数据清洗,对数据进行拆分,采样,去噪等,也可以进行数据归一化或标准化;
3、特征工程,即提取数据特征;
4、模型训练,通过算法进行训练,并生成模型;
5、模型评估,评估模型成熟度;
6、服务,根据每天数据生成新模型并进行预测;
二、数据源结构类型
1、结构化数据,比如存在数据表中的字段,存储的是具体值;
2、半结构话数据,指按一定结构存储,但不是数据表格式的或存在表中,但不以数值存储;
3、非结构化数据,类似图像,文本或语音之类的无法以矩阵表示的结构存储。
三、算法分类
1、监督学习,训练的数据包括目标值,学习的过程就是特征值和目标值对应的过程,依赖于样本的打标,典型算法:逻辑回归,K近邻,朴素贝叶斯,支持向量机,随机森林;
2、无监督学习,训练样本不依赖打标数据,主要解决一些聚类场景的问题,典型算法:K-means,DBSCAN,协同过滤,LDA;
3、半监督学习,对样本进行部分打标,典型算法:标签传播;
4、强化学习,系统与外界不断交互,获取外界反馈,然后决定自身行为,典型算法:隐马尔科夫;
四、结果评估
TP(true positive):正样本被模型预测为正样本;
TN(true negative):负样本被模型预测为负样本;
FP(false positive):负样本被模型预测为正样本;
FN(flase negative):正本被模型预测为负样本;
精确率 = TP / (TP + FP)
召回率 = TP / (TP + FN)
F1值 = (2 * 精确率 * 召回率 ) / (精确率 + 召回率)
ROC(recever operating characteristic curve):
常用的二分场景模型评估算法曲线,曲线横轴为FP,纵轴为TP,所以TP越大,FP越小说明模型越好,所以模型曲线越接近左上角越好,通过AUC值表示ROC曲线与横轴围起来的面积,AUC值越大效果越好。