2014年3月18日

词聚类

摘要: http://blog.csdn.net/zhaoxinfan/article/details/11069485继上次提取关键词之后,项目组长又要求我对关键词进行聚类。说实话,我不太明白对关键词聚类跟新闻推荐有什么联系,不过他说什么我照做就是了。按照一般的思路,可以用新闻ID向量来表示某个关键词,这就像广告推荐系统里面用用户访问类别向量来表示用户一样,然后就可以用kmeans的方法 进行聚类了。不过对于新闻来说存在一个问题,那就量太大,如果给你十万篇新闻,那每一个关键词将需要十万维的向量表示,随着新闻数迅速增加,那维度就更大 了,这计算起来难度太大。于是,这个方法思路简单但是不可行。好在我们有 阅读全文

posted @ 2014-03-18 18:19 雨渐渐 阅读(1550) 评论(1) 推荐(0) 编辑

Hadoop 学习笔记 (十一) MapReduce 求平均成绩

摘要: china:张三 78李四 89王五 96赵六 67english张三 80李四 82王五 84赵六 86math张三 88李四 99王五 66赵六 77import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io.Text;impo 阅读全文

posted @ 2014-03-18 17:36 雨渐渐 阅读(657) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记 (十) MapReduce实现排序 全局变量

摘要: 一些疑问:1 全排序的话,最后的应该sortJob.setNumReduceTasks(1);2 如果多个reduce task都去修改 一个静态的 IntWritable ,IntWritable会乱序吧~输入数据:file1232654321575665223file259562265092file326546import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritabl 阅读全文

posted @ 2014-03-18 16:58 雨渐渐 阅读(1129) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记 (九) hadoop2.2.0 生产环境部署 HDFS HA部署方法

摘要: step1:将安装包hadoop-2.2.0.tar.gz存放到某一个目录下,并解压step2:修改解压后的目录中的文件夹/etc/hadoop下的xml配置文件(如果文件不存在,则自己创建) 包括hadoop-env.sh mapred-site.xml core-site.xml hd... 阅读全文

posted @ 2014-03-18 13:48 雨渐渐 阅读(738) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记 (八) hadoop2.2.0 测试环境部署 及两种启动方式

摘要: 1基本流程步骤1:准备硬件(linux操作系统)步骤2:准备软件安装包,并安装基础软件(主要是JDK)步骤3:修改配置文件步骤4:分发hadoop步骤5:启动服务步骤6:验证是否启动成功!2硬件配置要求 1测试环境: 一台pc机或者服务器 建议内存不少于4G(2G也行)---------越高越流... 阅读全文

posted @ 2014-03-18 11:39 雨渐渐 阅读(355) 评论(0) 推荐(0) 编辑

hadoop各版本下载

摘要: http://hadoop.apache.org/Download Hadoop from the release page.http://hadoop.apache.org/releases.htmlDownload a release now!http://www.apache.org/dyn/closer.cgi/hadoop/common/We suggest the following mirror site for your download:他会推荐一个镜像站点(如果这个不好可以换其他的)cdh有两个大的发行版:http://archive-primary.cloudera.co 阅读全文

posted @ 2014-03-18 10:51 雨渐渐 阅读(544) 评论(0) 推荐(0) 编辑

导航