机器学习

什么是机器学习？利用计算机从历史数据中找出规律，并把这些规律应用到对未来不确定场景的决策。

机器学习的原动力？从历史数据中找出规律，把这些规律用到对未来自动作出决定；用数据代替expert；经济驱动。大数据的发展，数据变现靠机器学习。

业务系统发展的历史？基于专家经验，基于统计——分纬度统计，机器学习——在线学习，即在线实时学习调整，优化模型。

典型应用

关联规则。啤酒喝纸尿裤的关系，购物篮分析，同时购买商品。典型的数据挖掘的方法。

聚类。用户细分精准营销。全球通（高端体验），动感地带（发短信），神州行（打电话）。把消费数据拿过来交给计算机去挖掘分类。业务人员分析消费特征，然后去一个品牌名字。

朴素贝叶斯。垃圾邮件识别。

决策树。信用卡欺诈。信贷风险识别。还款能力有限人群和骗子。

ctr预估。点击率预估。互联网广告。搜索引擎。点击率排序。线性的逻辑回归算法。

协同过滤。推荐系统。经常一起购买的商品。

自然语言处理。情感分析。评论识别积极性。实体识别。识别文章的主干，如人名，地名，企业，时间等。

深度学习。图像识别。

更多应用。语音识别。个性化医疗。情感分析。人脸识别。自动驾驶。视频内容识别。机器翻译。

数据分析和机器学习的区别

1.数据特点。

交易数据 vs 行为数据

交易数据，用户订单，存取款账单。和钱有关的数据。数据分析。

行为数据。搜索历史。点击历史。评论。机器学习。

少量数据 vs 海量数据。

采样数据 vs 全量分析。交易数据要求一致性要求高（转账业务），行为数据要求不高。

NOSQL，not only SQL。只能用来处理行为数据，处理分布式，保证吞吐率的前提下。和钱有关的业务得使用关系数据库。不会使用MongaDB。

Hadoop全量分析，大数据。

2. 解决业务问题不同

OLAP 报告过去发生的事情 vs 预测未来的事情

数据分析说的是历史，机器学习是预测未来发生的事情。

3. 技术手段不同

引入算法之后，让机器去运作，人就不管了。

4. 参与者不同

分析师：分析师能力决定结果。目标用户是给公司的高层人员看的。

数据+算法：算法效果不是那么悬殊。关键是数据质量。针对个体用户。推荐给具体用户。

机器学习的算法分类

算法分类（1）

有监督学习：明确的给出了每一个样本所属的类别，提前打好了标签。邮件垃圾邮件否。根据已知的类别去训练模型参数。分类算法类别。回归算法。

无监督学习：聚类。用户类别提前是不知道的。没有Y值。

半监督学习：半监督学习。强化学习。小孩学走路。走的越多越好。样本数据越多越好。

算法分类（2）

分类与回归：

聚类：

标注：名词，动词，形容词，打标签。

算法分类（3）直指算法本质回答问题的方式是不一样的面试可能会问

生成模型：陪审团。属于各个类的概率。模棱两可。

判别模型：法官。最终目的。直接告诉类别。略显武断。

训练模型的思想不一样。

机器学习常见算法一览

SVM面试必考。Apriori多次访问数据库，性能消耗太大，被淘汰。FP-grouth代替，美籍华人发明，两遍数据库扫描。

EM算法理解有难度。比较抽象。

AdaBoost人脸识别。决策树改进版。解决分类问题。

首尾算法使用少。

高逼格算法：

FP-Growth

逻辑回归

RF、GBDT

推荐算法

LDA

Word2Vector

posted @ 2017-03-08 23:30 当归远志阅读(283) 评论(0) 收藏举报

刷新页面返回顶部

知行合一

编程改变世界。

机器学习

公告