初识机器学习——概念介绍(imooc笔记)
前言
imooc的机器学习一个最基本的介绍类课程,http://www.imooc.com/learn/717 ,不怎么涉及具体的算法或实现,只是讲了讲一些理论概念。
概述
机器学习:
利用计算机从历史数据中找到规律,并把这些规律用到对未来不确定场景的决策。
主体的不同:
计算机--机器学习。
人--数据分析。
数据分析是依靠人从历史数据中找到规,学习效果很大程度以来于人的经验与知识水平;
机器学习就是想要抛弃对人的依赖,靠机器来挖掘规律。
机器学习与统计学
- 《概率论》《数据统计》是机器学习的基石
- 传统的统计学,抽取一定量的样本然后 进行概率统计,然后得到结论 之后进行假设检验
- 传统的统计学受运算能力的限制,所以是用抽样的方式;
- 现在计算能力足够强,就不需要采用抽样的方式了。
典型应用
- 关联规则:比如“啤酒和纸尿裤”——购物篮分析(其实是数据挖掘)
- 聚类:比如用户群体细分
- 朴素贝叶斯:垃圾邮件
- 决策树:银行信贷风险识别
- ctr预估:搜索引擎互联网广告
- 协同过滤:推荐系统
- 自然语言处理:情感分析、实体识别
- 深度学习:图像识别
数据分析 vs 机器学习 的不同
数据的特点
①交易数据vs行为数据
- 数据分析处理的是交易数据,机器学习处理的是行为数据。
- 交易数据:存取款账单、用户订单、话费账单...与钱有关的数据。对数据一致性要求很高,应该放在关系型数据库中。
- 行为数据:搜索历史、点击历史、浏览历史、评论...对数据一致性要求不是很高,放在NoSQL数据库中。
②少量数据vs海量数据
③采样分析vs全量分析
NoSQL:只能处理行为数据,不能处理交易数据。强调分布式、CAP,保证数据吞吐量的前提下,在数据的一致性上打折扣。
解决业务问题不同
- 数据分析,报告历史上发生的事情。
- 机器学习:通过历史上发生的事情,来预测未来的事情。
技术手段不同
- 数据分析:分析方式是用户(数据分析师)驱动的,交互式分析。分析能力受限于数据分析师的能力,数据属性和维度很有限。
- 机器学习:分析方式是数据驱动的,自动进行知识发现。数据属性和维度数量级很大。
参与者不同
- 数据分析,分析师能力决定结果,目标用户是公司高层。
- 机器学习,数据质量决定结果,目标用户是个体。
对常用算法的分类方式
- 算法分类1:有监督学习 和 无监督学习
- 算法分类2:分类与回归、聚类、标注
- 算法分类3(重要,直指本质)
生成模型:用来说明分类问题。返回的是属于各个类的概率。
判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别。
机器学习解决问题的步骤
- 确定目标:
由业务需求,确定要解决的问题,收集数据,对数据进行特征工程(对数据清洗、整合,特征工程很重要!),根据要解决的问题提取出一些特征。 - 训练模型(重点)
定义模型;确定算法。
定义损失函数;找出算法的偏差。
优化算法;对算法进行优化。 - 模型评估
交叉验证;将不同的算法带入同一类数据中,验证效果。
效果评估;可以看出几个算法之间具体的差别、效果。
以一个图片根据颜色聚类问题为例,
首先明确要解决的问题——根据颜色聚类
收集到一些照片数据
进行特征工程:将图片转化成向量,这是非常重要的一步
然后用k-means聚类算法,完成模型训练
最后验证和评估。