2014 年 3月随笔档案 - 雨渐渐

hadoop的一些重要配置参数

摘要：hadoop集群管理内存设置Mapreduce内存使用设置hadoop job重要性能参数阅读全文

posted @ 2014-03-31 10:13 雨渐渐阅读(183) 评论(0) 推荐(0) 编辑

摘要：http://blog.csdn.net/happyteafriends/article/details/8571526以我的ubuntu 12.10为例，安装了vim之后，已经自带了python插件ls/usr/share/vim/vim73/autoload/adacomplete.vimnetrwFileHandlers.vimsqlcomplete.vimada.vimnetrwSettings.vimsyntaxcomplete.vimccomplete.vimnetrw.vimtar.vimcsscomplete.vimpaste.vimtohtml.vimdecada.vimph 阅读全文

posted @ 2014-03-27 08:38 雨渐渐阅读(763) 评论(0) 推荐(0) 编辑

shuffle ----- mr 董西城

摘要：http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/ 阅读全文

posted @ 2014-03-26 17:50 雨渐渐阅读(370) 评论(0) 推荐(0) 编辑

常用的linux命令

摘要：解码：cat ip.txt | iconv -f utf8 -t gbk -c | less查看linux版本lsb_release -a 列出文件或文件夹的大小du -ah ./du -sh dira=allh=human-readable 即以k m g t 为单位查看硬盘空间df -lh解压和... 阅读全文

posted @ 2014-03-24 15:15 雨渐渐阅读(303) 评论(0) 推荐(0) 编辑

hadoop 常用配置项

摘要：core-site.xmlnamevalueDescriptionfs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口fs.checkpoint.dir/opt/data/hadoop1/hdfs/namesecondary1定义hadoop的name备份的路径，官方文档说是读取这个，写入dfs.name.dirfs.checkpoint.period1800定义name备份的备份间隔时间，秒为单位，只对snn生效，默认一小时fs.checkpoint.size33554432以日志大小间隔做备份间隔，只对snn生效，默认64 阅读全文

posted @ 2014-03-24 13:21 雨渐渐阅读(1063) 评论(0) 推荐(0) 编辑

hadoop 异常处理实例（一）hadoop内存配置项

摘要：Exception in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209) at org.apache.nutch.crawl.Crawl.run(Crawl.java:143) at org.apache.hadoop.util.... 阅读全文

posted @ 2014-03-24 10:49 雨渐渐阅读(351) 评论(0) 推荐(1) 编辑

nutch 异常集锦

摘要：Exception in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209) at org.apache.nutch.crawl.Crawl.run(Crawl.java:143) at org.apache.hadoop.util.... 阅读全文

posted @ 2014-03-24 09:10 雨渐渐阅读(339) 评论(6) 推荐(0) 编辑

python 运行 hadoop 2.0 mapreduce 程序

摘要：要点：#!/usr/bin/python 因为要发送到各个节点，所以py文件必须是可执行的。 1）统计（所有日志）独立ip数目，即不同ip的总数 ####################本地测试############################cat /home/hadoop/Sep-2... 阅读全文

posted @ 2014-03-21 16:22 雨渐渐阅读(1372) 评论(0) 推荐(0) 编辑

hadoo namenode format 异常 java.net.UnknownHostException: localhost.localdomain: localhost.localdomain

摘要：/etc/sysconfig/network换成你在hosts里设置的值/etc/rc.d/init.d/network restart 重启网络 hostname后就会发现hostname变了，也就能format了，注意需要集群所有的都做同样的动作。只要在yarn-site.xml中，配置正确resourcemanager地址就行，这个地址可以用host或者ip另外，HOSTNAME不用刻意设置，hadoop自动会从/etc/hosts中读取host name，如果HOSTNAME也设置了，你需要保证两者一致，很麻烦这是董西城对这个问题的回答，我其实看不懂~~~有看懂的解释下吧给我~ 阅读全文

posted @ 2014-03-21 09:08 雨渐渐阅读(539) 评论(0) 推荐(0) 编辑

下一代hadoop

摘要：1，hadoop 2.0 产生背景2，hadoop 2.0 基本构成3，HDFS 2.04 YARN5 MapReduce On YARN6 Hadoop 2.0初体验7 总结1，hadoop 2.0产生背景：两个概念：hadoop生态系统：由hadoop，hbase，hive，pig，sqoop，flume，mahout，zookeeper等构成。hadoop：hadoop只是hadoop生态系统的一个组成部分，由分布式文件系统hdfs和分布式计算框架MapReduce组成。hadoop2.0由hdfs，yarn，mr组成通俗的hadoop是指hadoop生态系统。hdfs存在的问题：Nam 阅读全文

posted @ 2014-03-20 14:25 雨渐渐阅读(288) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（十） hadoop2.2.0 生产环境部署 HDFS HA Federation 含Yarn部署

摘要：其他的配置跟HDFS-HA部署方式完全一样。但JournalNOde的配置不一样》hadoop-cluster1中的nn1和nn2和hadoop-cluster2中的nn3和nn4可以公用同样的journalnode但dfs.namenode.shared.edits.dir配置不能相同。hadoo... 阅读全文

posted @ 2014-03-19 16:22 雨渐渐阅读(658) 评论(1) 推荐(0) 编辑

hadoop 2.x 安装包目录结构分析

摘要：bin：Hadoop最基本的管理脚本和使用脚本所在目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用hadoopetc：Hadoop配置文件所在目录，包括core-site.xml, hdfs-site.xml, mapred-site.xml等从hadoop1.0继承而来的配置文件和yarn-site.xml等hadoop 2.0新增的配置文件include：对外提供的编程酷头文件（具体动态库和静态库在lib目录中），这些头文件均是用c++定义的，通常用于c++程序访问hdfs或者编写mapreduce程序lib：该目录包含了Hadoop对外提供的的编程动态阅读全文

posted @ 2014-03-19 14:39 雨渐渐阅读(947) 评论(0) 推荐(0) 编辑

词聚类

摘要：http://blog.csdn.net/zhaoxinfan/article/details/11069485继上次提取关键词之后，项目组长又要求我对关键词进行聚类。说实话，我不太明白对关键词聚类跟新闻推荐有什么联系，不过他说什么我照做就是了。按照一般的思路，可以用新闻ID向量来表示某个关键词，这就像广告推荐系统里面用用户访问类别向量来表示用户一样，然后就可以用kmeans的方法进行聚类了。不过对于新闻来说存在一个问题，那就量太大，如果给你十万篇新闻，那每一个关键词将需要十万维的向量表示，随着新闻数迅速增加，那维度就更大了，这计算起来难度太大。于是，这个方法思路简单但是不可行。好在我们有阅读全文

posted @ 2014-03-18 18:19 雨渐渐阅读(1551) 评论(1) 推荐(0) 编辑

Hadoop 学习笔记（十一） MapReduce 求平均成绩

摘要：china：张三 78李四 89王五 96赵六 67english张三 80李四 82王五 84赵六 86math张三 88李四 99王五 66赵六 77import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io.Text;impo 阅读全文

posted @ 2014-03-18 17:36 雨渐渐阅读(658) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（十） MapReduce实现排序全局变量

摘要：一些疑问：1 全排序的话，最后的应该sortJob.setNumReduceTasks(1);2 如果多个reduce task都去修改一个静态的 IntWritable ，IntWritable会乱序吧~输入数据：file1232654321575665223file259562265092file326546import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritabl 阅读全文

posted @ 2014-03-18 16:58 雨渐渐阅读(1129) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（九） hadoop2.2.0 生产环境部署 HDFS HA部署方法

摘要：step1:将安装包hadoop-2.2.0.tar.gz存放到某一个目录下，并解压step2:修改解压后的目录中的文件夹/etc/hadoop下的xml配置文件（如果文件不存在，则自己创建）包括hadoop-env.sh mapred-site.xml core-site.xml hd... 阅读全文

posted @ 2014-03-18 13:48 雨渐渐阅读(740) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（八） hadoop2.2.0 测试环境部署及两种启动方式

摘要：1基本流程步骤1:准备硬件（linux操作系统）步骤2:准备软件安装包，并安装基础软件（主要是JDK）步骤3:修改配置文件步骤4:分发hadoop步骤5:启动服务步骤6:验证是否启动成功！2硬件配置要求 1测试环境：一台pc机或者服务器建议内存不少于4G（2G也行）---------越高越流... 阅读全文

posted @ 2014-03-18 11:39 雨渐渐阅读(358) 评论(0) 推荐(0) 编辑

hadoop各版本下载

摘要：http://hadoop.apache.org/Download Hadoop from the release page.http://hadoop.apache.org/releases.htmlDownload a release now!http://www.apache.org/dyn/closer.cgi/hadoop/common/We suggest the following mirror site for your download:他会推荐一个镜像站点（如果这个不好可以换其他的）cdh有两个大的发行版：http://archive-primary.cloudera.co 阅读全文

posted @ 2014-03-18 10:51 雨渐渐阅读(546) 评论(0) 推荐(0) 编辑

mapreduce (六) MapReduce实现去重 NullWritable的使用

摘要：习题来源：http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.htmlfile12012-3-1 a2012-3-2 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-7 c2012-3-... 阅读全文

posted @ 2014-03-17 10:46 雨渐渐阅读(3886) 评论(0) 推荐(0) 编辑

hadoop 生态系统版本对应问题

摘要：http://hbase.apache.org/book.html这是hortonworks的哦哦哦哦哦哦哦哦哦哦哦哦Hadoop 2.x is better than Hadoop 1.xHadoop 2.x is faster, with more features such as short-circuit reads which will help improve your HBase random read profile as well important bug fixes that will improve your overall HBase experience. You 阅读全文

posted @ 2014-03-17 09:57 雨渐渐阅读(344) 评论(0) 推荐(0) 编辑

mapreduce (五) MapReduce实现倒排索引修改版 combiner是把同一个机器上的多个map的结果先聚合一次

摘要：（总感觉上一篇的实现有问题）http://www.cnblogs.com/i80386/p/3444726.html combiner是把同一个机器上的多个map的结果先聚合一次现重新实现一个：思路：第一个mapreduce仅仅做的统计，即某个单词在某一篇文章里出现的次数。（原理跟wordc... 阅读全文

posted @ 2014-03-14 11:31 雨渐渐阅读(698) 评论(0) 推荐(0) 编辑

mapreduce (四) MapReduce实现Grep+sort

摘要：1.txtdong xi chengxi dong chengwo ai beijingtian an menqichedongdongdong2.txtdong xi chengxi dong chengwo ai beijingtian an menqichedongdongdongimport... 阅读全文

posted @ 2014-03-13 16:40 雨渐渐阅读(853) 评论(0) 推荐(0) 编辑

ctr预估模型

摘要：http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d 阅读全文

posted @ 2014-03-12 08:30 雨渐渐阅读(376) 评论(0) 推荐(0) 编辑

mapreduce (七) 几个实例

摘要：http://hi.baidu.com/hzd2712/item/d2465ae65270ab3e4cdcaf55MapReduce几个典型的例子在Google的《MapReduce: Simpli ed Data Processing on Large Clusters》论文中，作者... 阅读全文

posted @ 2014-03-11 15:06 雨渐渐阅读(581) 评论(0) 推荐(0) 编辑

hadoop输出统计

摘要：阅读全文

posted @ 2014-03-11 10:19 雨渐渐阅读(145) 评论(0) 推荐(0) 编辑

管道式编程查找，排序等

摘要：读取Sep-2013下面的所有log文件，并扔进管道cat /home/hadoop/Sep-2013/*/* | python ipmappper.py | sort | python ipreducer.pyvim 1.txtdong xi chengxi dong chengwo ai bei... 阅读全文

posted @ 2014-03-11 09:55 雨渐渐阅读(234) 评论(0) 推荐(0) 编辑

python中xrange与range的异同

摘要：转载自：http://ciniao.me/article.php?id=17>>> range(5)[0, 1, 2, 3, 4]>>> range(1, 5)[1, 2, 3, 4]>>> range(0, 6, 2)[0, 2, 4]>>> xrange(5)xrange(5)>>> list(xrange(5))[0, 1, 2, 3, 4]>>> xrange(1,5)xrange(1, 5)>>> list(xrange(1,5))[1, 2, 3, 4]&g 阅读全文

posted @ 2014-03-10 17:38 雨渐渐阅读(363) 评论(0) 推荐(0) 编辑

hadoop如何计算map数和reduce数（未读）

摘要：http://blog.csdn.net/lpxuan151009/article/details/7937821 阅读全文

posted @ 2014-03-10 17:17 雨渐渐阅读(159) 评论(0) 推荐(0) 编辑

hadoop job执行完的统计信息

摘要：Total committed heap usage (bytes)=1084792832 Physical memory (bytes) snapshot=1456316416 Virtual memory (bytes) snapshot=4766052352 这是统计的作业运行过程（从开始到最后结束）中，累加的jvm总内存使用量，总物理内存使用量总虚拟内存使用量，这几个内存的含义属于操作系统范畴的概念，阅读全文

posted @ 2014-03-06 14:57 雨渐渐阅读(268) 评论(0) 推荐(0) 编辑

hdfs 常用命令

摘要：(2）bin/hdfs dfs -mkdir -p /home/雨渐渐(3）scp /media/root/DCE28B65E28B432E/download/第2周/ChinaHadoop第二讲\(1\).mp4 root@192.168.2.200:/data/hadoop/bin/hdfs d... 阅读全文

posted @ 2014-03-05 16:52 雨渐渐阅读(783) 评论(0) 推荐(0) 编辑

hadoop hdfs 命令行设置文件夹大小的上限 quota：配额

摘要：》bin/hdfs dfs -put readme.txt /finance》bin/hdfs dfs -du -s /finance》3901 /finance》bin/hdfs dfsadmin -setSpaceQuota 4000 /finance 设置/finance的大小上限为4000个字节》bin/hdfs dfs -put readme1.txt /finance 由于已经超出4000个字节，则会报错14/03/04 11:56:31 WARN hdfs.DFSClient: DataStreamer Exceptionorg.apache.hadoop.hdfs.pro... 阅读全文

posted @ 2014-03-04 12:07 雨渐渐阅读(6148) 评论(0) 推荐(0) 编辑

雨渐渐

03 2014 档案