04 2015 档案

摘要:当下使用协同过滤算法计算的推荐系统到处可见,例如淘宝,京东,当当等电商网站,当你在网站上购买或者浏览了某些商品从而被其收集了相对应的数据,下次你在次浏览该网站的时候就会发现,他会根据你之前的购买/浏览记录为你推荐一些商品,而这些商品的推荐往往是十分精准的,因为它是建立在大数据的基础... 阅读全文
posted @ 2015-04-24 20:28 蒋源德 阅读(765) 评论(0) 推荐(0) 编辑
摘要:之前介绍的apriori算法中因为存在许多的缺陷,例如进行大量的全表扫描和计算量巨大的自然连接,所以现在几乎已经不再使用 在mahout的算法库中使用的是PFP算法,该算法是FPGrowth算法的分布式运行方式,其内部的算法结构和FPGrowth算法相差并不是十分巨大 所以这里首先介绍在单机内存... 阅读全文
posted @ 2015-04-24 13:08 蒋源德 阅读(499) 评论(0) 推荐(0) 编辑
摘要:关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用 举个简单的例子 如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+...+其他物品=多少¥ 而这些套餐就很有可能符合你的胃口,原本只想买一本书的你可能会因为这个推荐而买... 阅读全文
posted @ 2015-04-23 22:55 蒋源德 阅读(416) 评论(0) 推荐(0) 编辑
摘要:maven介绍在此略过下载地址:点击打开链接windows下载xxx-bin.zip文件linux下载xxx-bin.tar.gz这里以windows为例下载完成直接解压到一个目录下计算机--右键--属性--高级系统设置--环境变量--在系统变量中新建M2_HOME,值为maven解压的路径在系统变... 阅读全文
posted @ 2015-04-21 20:12 蒋源德 阅读(425) 评论(0) 推荐(0) 编辑
摘要:贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类对于分类问题,其实谁都不会陌生,每个人生活中无时不刻的在进行着分类。例如,走在大马路上看到女孩子,你会下意识的将她分为漂亮和不漂亮(漂亮当然就多看几眼啦)。在比如,在路上遇到一只狗,你会根据这只狗的毛发脏不脏,然后想到这... 阅读全文
posted @ 2015-04-17 09:29 蒋源德 阅读(3913) 评论(0) 推荐(0) 编辑
摘要:canopy是聚类算法的一种实现它是一种快速,简单,但是不太准确的聚类算法canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的但是通过canopy计算出... 阅读全文
posted @ 2015-04-15 19:01 蒋源德 阅读(639) 评论(0) 推荐(0) 编辑
摘要:在使用mahout之前要安装并启动hadoop集群将mahout的包上传至linux中并解压即可mahout下载地址:点击打开链接mahout中的算法大致可以分为三大类:聚类,协同过滤和分类其中常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等常用分类算... 阅读全文
posted @ 2015-04-15 19:00 蒋源德 阅读(1659) 评论(0) 推荐(0) 编辑
摘要:canopy是聚类算法的一种实现它是一种快速,简单,但是不太准确的聚类算法canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的但是通过canopy计算出... 阅读全文
posted @ 2015-04-11 19:18 蒋源德 阅读(860) 评论(0) 推荐(0) 编辑
摘要:在使用mahout之前要安装并启动hadoop集群 将mahout的包上传至linux中并解压即可 mahout下载地址: 点击打开链接 mahout中的算法大致可以分为三大类: 聚类,协同过滤和分类 其中 常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类... 阅读全文
posted @ 2015-04-10 20:25 蒋源德 阅读(243) 评论(0) 推荐(0) 编辑
摘要:storm保证从spout发出的每个tuple都会被完全处理。这篇文章介绍storm是怎么做到这个保证的,以及我们使用者怎么做才能充分利用storm的可靠性特点。一个tuple被”完全处理”是什么意思?就如同蝴蝶效应一样,从spout发射的一个tuple可以引起其它成千上万个tuple因它而产生, ... 阅读全文
posted @ 2015-04-07 21:53 蒋源德 阅读(450) 评论(0) 推荐(0) 编辑
摘要:Streams,流流作为storm的核心概念,定义为无限的tuple序列.什么是tuple?命名的value序列,可以理解成Key/value序列,每个value可以是任何类型,动态类型不需要事先声明.Tuple在传输中需要序列化和反序列化,storm集成了普通类型的序列化模块,用户可以自定义特殊类... 阅读全文
posted @ 2015-04-07 21:51 蒋源德 阅读(426) 评论(0) 推荐(0) 编辑
摘要:1.修改主机名:vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=MASTER2.修改IP:先用ifconfig得到ip信息,将其复制设置ip地址为静态vim /etc/sysconfig/network-scripts/ifcfg-eth0BOOTP... 阅读全文
posted @ 2015-04-06 15:43 蒋源德 阅读(181) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示