上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 57 下一页

2014年3月21日

python 运行 hadoop 2.0 mapreduce 程序

摘要: 要点:#!/usr/bin/python 因为要发送到各个节点,所以py文件必须是可执行的。 1) 统计(所有日志)独立ip数目,即不同ip的总数 ####################本地测试############################cat /home/hadoop/Sep-2... 阅读全文

posted @ 2014-03-21 16:22 雨渐渐 阅读(1366) 评论(0) 推荐(0) 编辑

hadoo namenode format 异常 java.net.UnknownHostException: localhost.localdomain: localhost.localdomain

摘要: /etc/sysconfig/network换成你在hosts里设置的值/etc/rc.d/init.d/network restart 重启网络 hostname后就会发现hostname变了,也就能format了,注意需要集群所有的都做同样的动作。 只要在yarn-site.xml中,配置正确resourcemanager地址就行,这个地址可以用host或者ip另外,HOSTNAME不用刻意设置,hadoop自动会从/etc/hosts中读取host name,如果HOSTNAME也设置了,你需要保证两者一致,很麻烦 这是董西城对这个问题的回答,我其实看不懂~~~有看懂的解释下吧给我~ 阅读全文

posted @ 2014-03-21 09:08 雨渐渐 阅读(537) 评论(0) 推荐(0) 编辑

2014年3月20日

下一代hadoop

摘要: 1,hadoop 2.0 产生背景2,hadoop 2.0 基本构成3,HDFS 2.04 YARN5 MapReduce On YARN6 Hadoop 2.0初体验7 总结1,hadoop 2.0产生背景:两个概念:hadoop生态系统:由hadoop,hbase,hive,pig,sqoop,flume,mahout,zookeeper等构成。hadoop:hadoop只是hadoop生态系统的一个组成部分,由分布式文件系统hdfs和分布式计算框架MapReduce组成。hadoop2.0由hdfs,yarn,mr组成通俗的hadoop是指hadoop生态系统。hdfs存在的问题:Nam 阅读全文

posted @ 2014-03-20 14:25 雨渐渐 阅读(288) 评论(0) 推荐(0) 编辑

2014年3月19日

Hadoop 学习笔记 (十) hadoop2.2.0 生产环境部署 HDFS HA Federation 含Yarn部署

摘要: 其他的配置跟HDFS-HA部署方式完全一样。但JournalNOde的配置不一样》hadoop-cluster1中的nn1和nn2和hadoop-cluster2中的nn3和nn4可以公用同样的journalnode但dfs.namenode.shared.edits.dir配置不能相同。hadoo... 阅读全文

posted @ 2014-03-19 16:22 雨渐渐 阅读(654) 评论(1) 推荐(0) 编辑

hadoop 2.x 安装包目录结构分析

摘要: bin:Hadoop最基本的管理脚本和使用脚本所在目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用hadoopetc:Hadoop配置文件所在目录,包括core-site.xml, hdfs-site.xml, mapred-site.xml等从hadoop1.0继承而来的配置文件和yarn-site.xml等hadoop 2.0新增的配置文件include:对外提供的编程酷头文件(具体动态库和静态库在lib目录中),这些头文件均是用c++定义的,通常用于c++程序访问hdfs或者编写mapreduce程序lib:该目录包含了Hadoop对外提供的的编程动态 阅读全文

posted @ 2014-03-19 14:39 雨渐渐 阅读(945) 评论(0) 推荐(0) 编辑

2014年3月18日

词聚类

摘要: http://blog.csdn.net/zhaoxinfan/article/details/11069485继上次提取关键词之后,项目组长又要求我对关键词进行聚类。说实话,我不太明白对关键词聚类跟新闻推荐有什么联系,不过他说什么我照做就是了。按照一般的思路,可以用新闻ID向量来表示某个关键词,这就像广告推荐系统里面用用户访问类别向量来表示用户一样,然后就可以用kmeans的方法 进行聚类了。不过对于新闻来说存在一个问题,那就量太大,如果给你十万篇新闻,那每一个关键词将需要十万维的向量表示,随着新闻数迅速增加,那维度就更大 了,这计算起来难度太大。于是,这个方法思路简单但是不可行。好在我们有 阅读全文

posted @ 2014-03-18 18:19 雨渐渐 阅读(1550) 评论(1) 推荐(0) 编辑

Hadoop 学习笔记 (十一) MapReduce 求平均成绩

摘要: china:张三 78李四 89王五 96赵六 67english张三 80李四 82王五 84赵六 86math张三 88李四 99王五 66赵六 77import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io.Text;impo 阅读全文

posted @ 2014-03-18 17:36 雨渐渐 阅读(657) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记 (十) MapReduce实现排序 全局变量

摘要: 一些疑问:1 全排序的话,最后的应该sortJob.setNumReduceTasks(1);2 如果多个reduce task都去修改 一个静态的 IntWritable ,IntWritable会乱序吧~输入数据:file1232654321575665223file259562265092file326546import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritabl 阅读全文

posted @ 2014-03-18 16:58 雨渐渐 阅读(1129) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记 (九) hadoop2.2.0 生产环境部署 HDFS HA部署方法

摘要: step1:将安装包hadoop-2.2.0.tar.gz存放到某一个目录下,并解压step2:修改解压后的目录中的文件夹/etc/hadoop下的xml配置文件(如果文件不存在,则自己创建) 包括hadoop-env.sh mapred-site.xml core-site.xml hd... 阅读全文

posted @ 2014-03-18 13:48 雨渐渐 阅读(738) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记 (八) hadoop2.2.0 测试环境部署 及两种启动方式

摘要: 1基本流程步骤1:准备硬件(linux操作系统)步骤2:准备软件安装包,并安装基础软件(主要是JDK)步骤3:修改配置文件步骤4:分发hadoop步骤5:启动服务步骤6:验证是否启动成功!2硬件配置要求 1测试环境: 一台pc机或者服务器 建议内存不少于4G(2G也行)---------越高越流... 阅读全文

posted @ 2014-03-18 11:39 雨渐渐 阅读(355) 评论(0) 推荐(0) 编辑

上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 57 下一页

导航