机器学习

 

 

 

 

机器学习

 

什么是机器学习?利用计算机从历史数据中找出规律,并把这些规律应用到对未来不确定场景的决策。

机器学习的原动力?从历史数据中找出规律,把这些规律用到对未来自动作出决定;用数据代替expert;经济驱动。大数据的发展,数据变现靠机器学习。

业务系统发展的历史?基于专家经验,基于统计——分纬度统计,机器学习——在线学习,即在线实时学习调整,优化模型。

 

典型应用

关联规则。啤酒喝纸尿裤的关系,购物篮分析,同时购买商品。典型的数据挖掘的方法。

聚类。用户细分精准营销。全球通(高端体验),动感地带(发短信),神州行(打电话)。把消费数据拿过来交给计算机去挖掘分类。业务人员分析消费特征,然后去一个品牌名字。

朴素贝叶斯。垃圾邮件识别。

决策树。信用卡欺诈。信贷风险识别。还款能力有限人群和骗子。

ctr预估。点击率预估。互联网广告。搜索引擎。点击率排序。线性的逻辑回归算法。

协同过滤。推荐系统。经常一起购买的商品。

自然语言处理。情感分析。评论识别积极性。实体识别。识别文章的主干,如人名,地名,企业,时间等。

深度学习。图像识别。

更多应用。语音识别。个性化医疗。情感分析。人脸识别。自动驾驶。视频内容识别。机器翻译。

 

数据分析和机器学习的区别

1.数据特点。

交易数据 vs 行为数据

交易数据,用户订单,存取款账单。和钱有关的数据。数据分析。

行为数据。搜索历史。点击历史。评论。机器学习。

少量数据 vs 海量数据。

采样数据 vs 全量分析。 交易数据要求一致性要求高(转账业务),行为数据要求不高。

NOSQL,not only SQL。只能用来处理行为数据,处理分布式,保证吞吐率的前提下。和钱有关的业务得使用关系数据库。不会使用MongaDB。

Hadoop全量分析,大数据。

2. 解决业务问题不同

OLAP 报告过去发生的事情  vs 预测未来的事情

数据分析说的是历史,机器学习是预测未来发生的事情。

 

 3. 技术手段不同

 引入算法之后,让机器去运作,人就不管了。

 

4. 参与者不同

分析师:分析师能力决定结果。目标用户是给公司的高层人员看的。

数据+算法:算法效果不是那么悬殊。关键是数据质量。针对个体用户。推荐给具体用户。

 

机器学习的算法分类

 

算法分类(1)

有监督学习:明确的给出了每一个样本所属的类别,提前打好了标签。邮件垃圾邮件否。根据已知的类别去训练模型参数。分类算法类别。回归算法。

无监督学习:聚类。用户类别提前是不知道的。没有Y值。

半监督学习:半监督学习。强化学习。小孩学走路。走的越多越好。样本数据越多越好。

 

算法分类(2)

分类与回归:

聚类:

标注:名词,动词,形容词,打标签。

 

算法分类(3)直指算法本质 回答问题的方式是不一样的 面试可能会问

生成模型:陪审团。属于各个类的概率。模棱两可。

判别模型:法官。最终目的。直接告诉类别。略显武断。

训练模型的思想不一样。

 

机器学习常见算法一览

 

 SVM面试必考。Apriori多次访问数据库,性能消耗太大,被淘汰。FP-grouth代替,美籍华人发明,两遍数据库扫描。

 EM算法理解有难度。比较抽象。

 AdaBoost人脸识别。决策树改进版。解决分类问题。

首尾算法使用少。

 

高逼格算法:

FP-Growth

逻辑回归

RF、GBDT

推荐算法

LDA

Word2Vector

 

posted @ 2017-03-08 23:30  当归远志  阅读(240)  评论(0编辑  收藏  举报