微信扫一扫打赏支持

机器学习实战笔记---0、读大纲

机器学习实战笔记---0、读大纲

一、总结

一句话总结:

第一部分:【分类】:第1章机器学习基础、第2章【k近邻算法】、第3章【决策树】、第4章基于概率论的分类方法:【朴素贝叶斯】、第5章【Logistic回归】、第6章【支持向量机】、第7章利用【Adaboost】元算法提高分类性能
第二部分:【利用回归预测数值型数据】:第8章预测数值型数据:回归、第9章【树回归】
第三部分:【无监督学习】:第10章利用【K-均值】聚类算法对未标注数据分组、第11章使用【Apriori】算法进行关联分析、第12章使用【FP-growth】算法来高效发现频繁项集
第四部分:【其他工具】:第13章利用【PCA】来简化数据、第14章利用【SVD】简化数据、第15章【大数据与MapReduce】

 

1、第一部分:【分类】?

本书的前七章主要研究分类算法,第2章讲述【最简单的分类算法:k近邻算法】,它使用距离矩阵进行分类;第3章引入了【决策树】,它比较直观,容易理解,但是相对难于实现;
第4章将讨论如何【使用概率论建立分类器】;第5章将讨论【 Logistic回归】,如何使用最优参数正确地分类原始数据,在搜索最优参数的过程中,将使用几个经常用到的优化算法;第6章介绍了非常流行的【支持向量机】;
第一部分最后的第7章将介绍【元算法——Adaboost】,它由若干个分类器构成,此外还总结了第一部分探讨的分类算法在实际使用中可能面对的非均衡分类问题,一旦训练样本某个分类的数据多于其他分类的数据,就会产生非均衡分类问题。

 

2、第二部分:【利用回归预测数值型数据】?

本书的第二部分由第8章和第9章组成,主要介绍了回归方法。【回归是第1~7章的监督学习方法的延续】。前面说过,监督学习指的是有目标变量或预测目标的机器学习方法。回归与分类的不同,就在于其目标变量是连续数值型。
第8章介绍了【线性回归、局部加权线性回归和收缩方法】。第9章则借用了第3章树构建的一些思想并将其应用于回归中,从而得到了【树回归】

 

3、第三部分:【无监督学习】?

这一部分介绍的是无监督机器学习方法。该主题与前两部分有所不同。在无监督学习中,【类似分类和回归中的目标变量事先并不存在】。与前面“对于输入数据X能预测变量Y)不同的是,这里要回答的问题是:“从数据X中能发现什么?”这里需要回答的X方面的问题可能是:“构成ⅹ的最佳6个数据簇都是哪些?”或者“X中哪三个特征最频繁共现?”
第10章介绍了无监督学习中的聚类(将相似项聚团)方法,包括【k均值聚类算法】。第11章介绍了基于 【Apriori算法】的关联分析或者称购物篮分析。关联分析可以用于回答“哪些物品经常被同时购买?”之类的问题。无监督学习部分的最后一章,即第12章将介绍一个【更高效的关联分析算法:FP-growth算法】。

 

4、第四部分:【其他工具】?

本书第四部分即是最后一部分,主要介绍在【机器学习实践时常用的一些其他工具】,它们可以应用于前三部分的算法上。这些工具还包括了可以对前三部分中任一算法的输入数据进行预处理的降维技术。这一部分还包括了【在上千台机器上分配作业的 Map reduce技术】
【降维】的目标就是【对输入的数目进行削减,由此剔除数据中的噪声并提高机器学习方法的性能】。第13章将介绍按照数据方差最大方向调整数据的【主成分分析降维方法】。第14章解释【奇异值分解】,它是【矩阵分解技术】中的一种,通过【对原始数据的逼近来达到降维的目的】。
第15章是本书的最后一章,主要讨论了【在大数据下的机器学习】。大数据(big data)指的就是数据集很大以至于内存不足以将其存放。如果数据不能在内存中存放,那么在内存和磁盘之间传输数据时就会浪费大量的时间。为了避免这一点,我们就可以将整个作业进行分片,这样就可以在多机下进行并行处理。Map reduce就是实现上述过程的一种流行的方法,【它将作业分成了Map任务和 Reduce任务】。第15章将介绍 Python中 Map reduce实现的一些常用工具,同时也介绍了将机器学习转换成满足 Map reduce编程范式的方法。

 

 

二、内容在总结中

博客对应课程的视频位置:

 

 

 
posted @ 2020-12-03 15:04  范仁义  阅读(106)  评论(0编辑  收藏  举报