2015 年 12月 3 日随笔档案 - develooop

基于MLlib的机器学习--协同过滤与推荐

摘要：《Spark快速大数据分析》11.5.4协同过滤与推荐协同过滤是一种根据用户对各种产品的交互与评分来推荐新产品的推荐系统技术。协同过滤引入的地方就在于它只需要输入一系列用户/产品的交互记录；无论是显式的交互(例如在购物网站上进行评分)还是隐式的(例如用户访问了一个产品的页面但是没有对产品评分)交互皆... 阅读全文

posted @ 2015-12-03 22:54 develooop 阅读(450) 评论(0) 推荐(0) 编辑

基于MLlib的机器学习--聚类

摘要：《Spark快速大数据分析》11.5.4 聚类聚类算法是一种无监督学习任务，用于将对象分到具有高度相似性的聚类中。监督式学习中的数据都是带标签的，而聚类可以用于无标签的数据。该算法主要用于数据探索(查看一个数据集是什么样子)以及异常检测(识别与任意聚类都相距较远的点)。KMeansMLlib包含聚类... 阅读全文

posted @ 2015-12-03 18:46 develooop 阅读(321) 评论(0) 推荐(0) 编辑

【转】Spark学习笔记

摘要：原文链接 http://xialeizhou.com/2015/11/29/spark-study/#Spark学习笔记基本概念RDD - resillient distributed dataset 弹性分布式数据集 Operation - 作用于RDD的各种操作分为transformation和... 阅读全文

posted @ 2015-12-03 16:35 develooop 阅读(289) 评论(0) 推荐(0) 编辑

【转】TF-IDF与余弦相似性的应用（三）：自动摘要

摘要：原文链接 http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html有时候，很简单的数学方法，就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频，就能找出关键词和相似文章。虽然它们算不上效果最好的方法... 阅读全文

posted @ 2015-12-03 16:29 develooop 阅读(224) 评论(0) 推荐(0) 编辑

【转】TF-IDF与余弦相似性的应用（二）：找出相似文章

摘要：原文链接 http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html上一次，我用TF-IDF算法自动提取关键词。今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻... 阅读全文

posted @ 2015-12-03 16:26 develooop 阅读(244) 评论(0) 推荐(0) 编辑

【转】TF-IDF与余弦相似性的应用（一）：自动提取关键词

摘要：原文链接 http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请... 阅读全文

posted @ 2015-12-03 16:25 develooop 阅读(180) 评论(0) 推荐(0) 编辑

基于MLlib的机器学习

摘要：《Spark快速大数据分析》11.1概述MLlib的设计理念非常简单：把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。MLlib引入了一些数据类型,比如点和向量，不过归根结底，MLlib就是RDD上一系列可供调用的函数的集合。比如，如果要用MLlib来完成文本分类的任务，例如识别垃圾邮件... 阅读全文

posted @ 2015-12-03 01:24 develooop 阅读(2082) 评论(0) 推荐(0) 编辑

keep thinking