雨渐渐

python 运行 hadoop 2.0 mapreduce 程序

摘要：要点：#!/usr/bin/python 因为要发送到各个节点，所以py文件必须是可执行的。 1）统计（所有日志）独立ip数目，即不同ip的总数 ####################本地测试############################cat /home/hadoop/Sep-2... 阅读全文

posted @ 2014-03-21 16:22 雨渐渐阅读(1366) 评论(0) 推荐(0) 编辑

hadoo namenode format 异常 java.net.UnknownHostException: localhost.localdomain: localhost.localdomain

摘要： /etc/sysconfig/network换成你在hosts里设置的值/etc/rc.d/init.d/network restart 重启网络 hostname后就会发现hostname变了，也就能format了，注意需要集群所有的都做同样的动作。只要在yarn-site.xml中，配置正确resourcemanager地址就行，这个地址可以用host或者ip另外，HOSTNAME不用刻意设置，hadoop自动会从/etc/hosts中读取host name，如果HOSTNAME也设置了，你需要保证两者一致，很麻烦这是董西城对这个问题的回答，我其实看不懂~~~有看懂的解释下吧给我~ 阅读全文

posted @ 2014-03-21 09:08 雨渐渐阅读(537) 评论(0) 推荐(0) 编辑

下一代hadoop

摘要： 1，hadoop 2.0 产生背景2，hadoop 2.0 基本构成3，HDFS 2.04 YARN5 MapReduce On YARN6 Hadoop 2.0初体验7 总结1，hadoop 2.0产生背景：两个概念：hadoop生态系统：由hadoop，hbase，hive，pig，sqoop，flume，mahout，zookeeper等构成。hadoop：hadoop只是hadoop生态系统的一个组成部分，由分布式文件系统hdfs和分布式计算框架MapReduce组成。hadoop2.0由hdfs，yarn，mr组成通俗的hadoop是指hadoop生态系统。hdfs存在的问题：Nam 阅读全文

posted @ 2014-03-20 14:25 雨渐渐阅读(288) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（十） hadoop2.2.0 生产环境部署 HDFS HA Federation 含Yarn部署

摘要：其他的配置跟HDFS-HA部署方式完全一样。但JournalNOde的配置不一样》hadoop-cluster1中的nn1和nn2和hadoop-cluster2中的nn3和nn4可以公用同样的journalnode但dfs.namenode.shared.edits.dir配置不能相同。hadoo... 阅读全文

posted @ 2014-03-19 16:22 雨渐渐阅读(654) 评论(1) 推荐(0) 编辑

hadoop 2.x 安装包目录结构分析

摘要： bin：Hadoop最基本的管理脚本和使用脚本所在目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用hadoopetc：Hadoop配置文件所在目录，包括core-site.xml, hdfs-site.xml, mapred-site.xml等从hadoop1.0继承而来的配置文件和yarn-site.xml等hadoop 2.0新增的配置文件include：对外提供的编程酷头文件（具体动态库和静态库在lib目录中），这些头文件均是用c++定义的，通常用于c++程序访问hdfs或者编写mapreduce程序lib：该目录包含了Hadoop对外提供的的编程动态阅读全文

posted @ 2014-03-19 14:39 雨渐渐阅读(945) 评论(0) 推荐(0) 编辑

词聚类

摘要： http://blog.csdn.net/zhaoxinfan/article/details/11069485继上次提取关键词之后，项目组长又要求我对关键词进行聚类。说实话，我不太明白对关键词聚类跟新闻推荐有什么联系，不过他说什么我照做就是了。按照一般的思路，可以用新闻ID向量来表示某个关键词，这就像广告推荐系统里面用用户访问类别向量来表示用户一样，然后就可以用kmeans的方法进行聚类了。不过对于新闻来说存在一个问题，那就量太大，如果给你十万篇新闻，那每一个关键词将需要十万维的向量表示，随着新闻数迅速增加，那维度就更大了，这计算起来难度太大。于是，这个方法思路简单但是不可行。好在我们有阅读全文

posted @ 2014-03-18 18:19 雨渐渐阅读(1550) 评论(1) 推荐(0) 编辑

Hadoop 学习笔记（十一） MapReduce 求平均成绩

摘要： china：张三 78李四 89王五 96赵六 67english张三 80李四 82王五 84赵六 86math张三 88李四 99王五 66赵六 77import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io.Text;impo 阅读全文

posted @ 2014-03-18 17:36 雨渐渐阅读(657) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（十） MapReduce实现排序全局变量

摘要：一些疑问：1 全排序的话，最后的应该sortJob.setNumReduceTasks(1);2 如果多个reduce task都去修改一个静态的 IntWritable ，IntWritable会乱序吧~输入数据：file1232654321575665223file259562265092file326546import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritabl 阅读全文

posted @ 2014-03-18 16:58 雨渐渐阅读(1129) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（九） hadoop2.2.0 生产环境部署 HDFS HA部署方法

摘要： step1:将安装包hadoop-2.2.0.tar.gz存放到某一个目录下，并解压step2:修改解压后的目录中的文件夹/etc/hadoop下的xml配置文件（如果文件不存在，则自己创建）包括hadoop-env.sh mapred-site.xml core-site.xml hd... 阅读全文

posted @ 2014-03-18 13:48 雨渐渐阅读(738) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（八） hadoop2.2.0 测试环境部署及两种启动方式

摘要： 1基本流程步骤1:准备硬件（linux操作系统）步骤2:准备软件安装包，并安装基础软件（主要是JDK）步骤3:修改配置文件步骤4:分发hadoop步骤5:启动服务步骤6:验证是否启动成功！2硬件配置要求 1测试环境：一台pc机或者服务器建议内存不少于4G（2G也行）---------越高越流... 阅读全文

posted @ 2014-03-18 11:39 雨渐渐阅读(355) 评论(0) 推荐(0) 编辑