基本问题

什么是机器学习?

机器学习要解决哪些问题?
从复杂和海量的数据中获得洞见

机器学习的步骤有哪些?

基础

机器学习的基本概念,原理以及基本方法以及基础能力

基本概念
属性 值 特征
训练集和测试集 验证集
特征提取 特征变换
模型-- 模型是观察的简化
监督和非监督学习:监督学习 半监督学习 无监督学习 强化学习
在线学习和离线学习--是否可以增量学习

是否监督

监督学习
线性回归 逻辑回归
K近邻 支持向量机 决策树 随机森林 神经网络
半监督学习
深度信念网络 DBN --受限玻尔兹曼机RBN
无监督学习
聚类算法 K-Means EM 分层聚类算法
降维算法 PCA kernel_PCA
可视化 t-SNE
关联规则 Apriori Eclat
异常检测
强化学习
策略 执行 获得奖励或惩罚 升级策略

数据

离线学习:学习过程在批量数据时,应用时,学习停止-- 需要不断训练新版本
在线学习:--
全量学习和增量学习

泛化方式

基于实例: 基于学习示例,通过相似度等泛化到新的示例
基于模型: 构建模型,利用模型进行预测

模型

模型参数和学习算法的超参数

步骤

学习数据-选择模型-训练模型-应用模型-评估模型

评估模型- 测试与验证 训练误差和泛化误差 以及验证假设

主要的问题

数据: 训练样本不足 训练样本不具有代表性 无关特征 质量差的数据
模型: 过拟合 欠拟合
过拟合: 模型在训练数据上表现良好,泛化效果比较不是很好
评判: 性能指标: 均方根误差 平均绝对误差

参考方法“
提供更好的特征,
选择更多参数/更强大的模型
减少模型中的约束

实际操作

Pipeline 数据流水线

参考文献

机器学习实战 Hands-on mechine Learning with

posted on 2021-02-02 11:34  辰令  阅读(130)  评论(0)    收藏  举报