摘要: 首先,简单介绍下k-means聚类:效果简单有效,易于map—reduce化 算法思路:1、选择k个点作为原始的质心(k如何定) 2、将每个点指派到最近的质心,形成k个簇 3、重新计算每个簇的质心(x,y坐标的均值)--[新的质心不一定为样本点哦] 4、迭代2、3步直到簇心收敛于某一个阈值 优缺点: 阅读全文
posted @ 2016-07-06 19:43 叶乙 阅读(7423) 评论(0) 推荐(0) 编辑
摘要: 不写出来心里总是惴惴的,最近所有的机器学习的内容(ps:关于R的),都是在南大蹭课,对课上老师代码以及ppt内容的重现; 自己写出来是作为对知识的梳理总结以及归纳,并熟悉R... 阅读全文
posted @ 2016-07-06 09:50 叶乙 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 1|—— rpart函数 shuttle数据集 数据集: 代码: 绘图: rpart.plot(b,type=1) rpart.plot(b,type=2) 分类的效果还是不错的,but这是数据洗的好啊... outcome: OUTCOME: _ tsamp集合 _samp集合 阅读全文
posted @ 2016-06-27 15:52 叶乙 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 思路梳理: 决策树 |————Bagging[bootstrap抽样、投票分类] |————Boosting[bootstrap抽样、分错元组权重上升、分类器上也加权重进而判断] |————RandomForest[bootstrap抽样、n个特征找2~3个特种建树分类、Cart算法(基尼系数、不剪 阅读全文
posted @ 2016-06-26 21:56 叶乙 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 机器学习的理论学了好久了,对于回归,分类,聚类,数据的预处理的各种算法也有了深刻认识; 但纸上谈兵,没有意义; 从今天开始用起来吧,把各种算法的实践以及思路记录下来,附带学习R和python语言(也真是零散) 希望每天都可以有进步,可以发现有趣的东西... 阅读全文
posted @ 2016-06-26 20:42 叶乙 阅读(111) 评论(0) 推荐(0) 编辑