数据开发_机器学习

基本问题

什么是机器学习？

机器学习要解决哪些问题？
从复杂和海量的数据中获得洞见

机器学习的步骤有哪些？

基础

机器学习的基本概念，原理以及基本方法以及基础能力

基本概念
属性值特征
训练集和测试集验证集
特征提取特征变换
模型-- 模型是观察的简化
监督和非监督学习：监督学习半监督学习无监督学习强化学习
在线学习和离线学习--是否可以增量学习

是否监督

监督学习
线性回归逻辑回归
K近邻支持向量机决策树随机森林神经网络
半监督学习
深度信念网络 DBN --受限玻尔兹曼机RBN
无监督学习
聚类算法 K-Means EM 分层聚类算法
降维算法 PCA kernel_PCA
可视化 t-SNE
关联规则 Apriori Eclat
异常检测
强化学习
策略执行获得奖励或惩罚升级策略

数据

离线学习：学习过程在批量数据时，应用时，学习停止-- 需要不断训练新版本
在线学习：--
全量学习和增量学习

泛化方式

基于实例：基于学习示例，通过相似度等泛化到新的示例
基于模型：构建模型，利用模型进行预测

模型

模型参数和学习算法的超参数

步骤

学习数据-选择模型-训练模型-应用模型-评估模型

评估模型- 测试与验证训练误差和泛化误差以及验证假设

主要的问题

数据：训练样本不足训练样本不具有代表性无关特征质量差的数据
模型：过拟合欠拟合
过拟合：模型在训练数据上表现良好，泛化效果比较不是很好
评判：性能指标：均方根误差平均绝对误差

参考方法“
提供更好的特征，
选择更多参数/更强大的模型
减少模型中的约束

实际操作

Pipeline 数据流水线

参考文献

机器学习实战 Hands-on mechine Learning with

posted on 2021-02-02 11:34 辰令阅读(130) 评论(0) 收藏举报