2016年6月27日

大规模机器学习优化方法综述

摘要: 本文对这篇论文的简单描述 1.Introduction 随着大数据时代到来,尽管计算机硬件条件的改善,对于机器学习算法效率的要求并不会降低,而机器学习算法效率更多地依赖于数值优化方法的改进,因而有必要对近年来关于大规模机器学习中的优化算法做一个总结,以便更好地理清思路,确定未来算法的改进方向。 本文 阅读全文

posted @ 2016-06-27 16:10 who_a 阅读(5935) 评论(0) 推荐(1) 编辑

2016年5月18日

协同过滤用户相似度度量

摘要: 闵氏距离(Minkowski Distance) 当r=1时,曼哈顿距离(Manhatten) 当r=2时,欧氏距离(Euclidean) r=无穷大,上确界距离(Supermum Distance) 皮尔逊相关系数(Pearson CORRELATION Coeffcient),取值[-1,1], 阅读全文

posted @ 2016-05-18 20:00 who_a 阅读(3026) 评论(0) 推荐(0) 编辑

2016年5月16日

Spark构建分类模型

摘要: 出自:《spark机器学习》 以逻辑回归模型举例介绍完整的分类模型构建过程。 数据集下载:http://www.kaggle.com/c/stumbleupon 该数据集是关于网页中推荐的页面是短暂存在还是可以长时间流行的一个分类问题,目标值-1表示长久,0表示短暂。 首先将数据第一行删除,通过管道 阅读全文

posted @ 2016-05-16 21:23 who_a 阅读(2265) 评论(0) 推荐(0) 编辑

2016年5月4日

图像二值化:大律算法matlab实现

摘要: 参考以下文章进行改动 阅读全文

posted @ 2016-05-04 15:23 who_a 阅读(891) 评论(0) 推荐(0) 编辑

2016年4月21日

PageRank基于Spark实现介绍

摘要: 该算法为谷歌的拉里•佩奇命名。以迭代方式,根据外部文档指向一个文档的链接来更新每个文档的权重。每个文档给它的相邻文档提供r/n的权值,其中r是该文档的rank,n表示它的邻居文档个数。通过公式a/N +(1-a)*sum(ci) 来更新rank,其中N是文档的总个数,sum(ci)是接收到的权值总和 阅读全文

posted @ 2016-04-21 16:36 who_a 阅读(2991) 评论(0) 推荐(1) 编辑

2016年4月6日

spark 数据读取与保存

摘要: 在Scala中读取文本文件: 一个目录下多个文件读取可用wholeTextFiles()方法 保存文本文件 在Scala中读取JSON 在Scala中使用textFile()读取CSV(假设CSV数据字段没有包含换行符) 若字段嵌有换行符,完整读取后解析 读取SequenceFile 保存Seque 阅读全文

posted @ 2016-04-06 19:30 who_a 阅读(727) 评论(0) 推荐(0) 编辑

导航