03 2014 档案

hadoop的一些重要配置参数
摘要:hadoop集群管理内存设置Mapreduce内存使用设置hadoop job重要性能参数 阅读全文

posted @ 2014-03-31 10:13 雨渐渐 阅读(183) 评论(0) 推荐(0) 编辑

linux vim 插件
摘要:http://blog.csdn.net/happyteafriends/article/details/8571526以我的ubuntu 12.10为例,安装了vim之后,已经自带了python插件ls/usr/share/vim/vim73/autoload/adacomplete.vimnetrwFileHandlers.vimsqlcomplete.vimada.vimnetrwSettings.vimsyntaxcomplete.vimccomplete.vimnetrw.vimtar.vimcsscomplete.vimpaste.vimtohtml.vimdecada.vimph 阅读全文

posted @ 2014-03-27 08:38 雨渐渐 阅读(763) 评论(0) 推荐(0) 编辑

shuffle ----- mr 董西城
摘要:http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/ 阅读全文

posted @ 2014-03-26 17:50 雨渐渐 阅读(370) 评论(0) 推荐(0) 编辑

常用的linux命令
摘要:解码:cat ip.txt | iconv -f utf8 -t gbk -c | less查看linux版本lsb_release -a 列出文件或文件夹的大小du -ah ./du -sh dira=allh=human-readable 即以k m g t 为单位查看硬盘空间df -lh解压和... 阅读全文

posted @ 2014-03-24 15:15 雨渐渐 阅读(303) 评论(0) 推荐(0) 编辑

hadoop 常用配置项
摘要:core-site.xmlnamevalueDescriptionfs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口fs.checkpoint.dir/opt/data/hadoop1/hdfs/namesecondary1定义hadoop的name备份的路径,官方文档说是读取这个,写入dfs.name.dirfs.checkpoint.period1800定义name备份的备份间隔时间,秒为单位,只对snn生效,默认一小时fs.checkpoint.size33554432以日志大小间隔做备份间隔,只对snn生效,默认64 阅读全文

posted @ 2014-03-24 13:21 雨渐渐 阅读(1063) 评论(0) 推荐(0) 编辑

hadoop 异常处理实例(一)hadoop内存配置项
摘要:Exception in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209) at org.apache.nutch.crawl.Crawl.run(Crawl.java:143) at org.apache.hadoop.util.... 阅读全文

posted @ 2014-03-24 10:49 雨渐渐 阅读(351) 评论(0) 推荐(1) 编辑

nutch 异常集锦
摘要:Exception in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209) at org.apache.nutch.crawl.Crawl.run(Crawl.java:143) at org.apache.hadoop.util.... 阅读全文

posted @ 2014-03-24 09:10 雨渐渐 阅读(339) 评论(6) 推荐(0) 编辑

python 运行 hadoop 2.0 mapreduce 程序
摘要:要点:#!/usr/bin/python 因为要发送到各个节点,所以py文件必须是可执行的。 1) 统计(所有日志)独立ip数目,即不同ip的总数 ####################本地测试############################cat /home/hadoop/Sep-2... 阅读全文

posted @ 2014-03-21 16:22 雨渐渐 阅读(1372) 评论(0) 推荐(0) 编辑

hadoo namenode format 异常 java.net.UnknownHostException: localhost.localdomain: localhost.localdomain
摘要:/etc/sysconfig/network换成你在hosts里设置的值/etc/rc.d/init.d/network restart 重启网络 hostname后就会发现hostname变了,也就能format了,注意需要集群所有的都做同样的动作。 只要在yarn-site.xml中,配置正确resourcemanager地址就行,这个地址可以用host或者ip另外,HOSTNAME不用刻意设置,hadoop自动会从/etc/hosts中读取host name,如果HOSTNAME也设置了,你需要保证两者一致,很麻烦 这是董西城对这个问题的回答,我其实看不懂~~~有看懂的解释下吧给我~ 阅读全文

posted @ 2014-03-21 09:08 雨渐渐 阅读(539) 评论(0) 推荐(0) 编辑

下一代hadoop
摘要:1,hadoop 2.0 产生背景2,hadoop 2.0 基本构成3,HDFS 2.04 YARN5 MapReduce On YARN6 Hadoop 2.0初体验7 总结1,hadoop 2.0产生背景:两个概念:hadoop生态系统:由hadoop,hbase,hive,pig,sqoop,flume,mahout,zookeeper等构成。hadoop:hadoop只是hadoop生态系统的一个组成部分,由分布式文件系统hdfs和分布式计算框架MapReduce组成。hadoop2.0由hdfs,yarn,mr组成通俗的hadoop是指hadoop生态系统。hdfs存在的问题:Nam 阅读全文

posted @ 2014-03-20 14:25 雨渐渐 阅读(288) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记 (十) hadoop2.2.0 生产环境部署 HDFS HA Federation 含Yarn部署
摘要:其他的配置跟HDFS-HA部署方式完全一样。但JournalNOde的配置不一样》hadoop-cluster1中的nn1和nn2和hadoop-cluster2中的nn3和nn4可以公用同样的journalnode但dfs.namenode.shared.edits.dir配置不能相同。hadoo... 阅读全文

posted @ 2014-03-19 16:22 雨渐渐 阅读(658) 评论(1) 推荐(0) 编辑

hadoop 2.x 安装包目录结构分析
摘要:bin:Hadoop最基本的管理脚本和使用脚本所在目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用hadoopetc:Hadoop配置文件所在目录,包括core-site.xml, hdfs-site.xml, mapred-site.xml等从hadoop1.0继承而来的配置文件和yarn-site.xml等hadoop 2.0新增的配置文件include:对外提供的编程酷头文件(具体动态库和静态库在lib目录中),这些头文件均是用c++定义的,通常用于c++程序访问hdfs或者编写mapreduce程序lib:该目录包含了Hadoop对外提供的的编程动态 阅读全文

posted @ 2014-03-19 14:39 雨渐渐 阅读(947) 评论(0) 推荐(0) 编辑

词聚类
摘要:http://blog.csdn.net/zhaoxinfan/article/details/11069485继上次提取关键词之后,项目组长又要求我对关键词进行聚类。说实话,我不太明白对关键词聚类跟新闻推荐有什么联系,不过他说什么我照做就是了。按照一般的思路,可以用新闻ID向量来表示某个关键词,这就像广告推荐系统里面用用户访问类别向量来表示用户一样,然后就可以用kmeans的方法 进行聚类了。不过对于新闻来说存在一个问题,那就量太大,如果给你十万篇新闻,那每一个关键词将需要十万维的向量表示,随着新闻数迅速增加,那维度就更大 了,这计算起来难度太大。于是,这个方法思路简单但是不可行。好在我们有 阅读全文

posted @ 2014-03-18 18:19 雨渐渐 阅读(1551) 评论(1) 推荐(0) 编辑

Hadoop 学习笔记 (十一) MapReduce 求平均成绩
摘要:china:张三 78李四 89王五 96赵六 67english张三 80李四 82王五 84赵六 86math张三 88李四 99王五 66赵六 77import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io.Text;impo 阅读全文

posted @ 2014-03-18 17:36 雨渐渐 阅读(658) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记 (十) MapReduce实现排序 全局变量
摘要:一些疑问:1 全排序的话,最后的应该sortJob.setNumReduceTasks(1);2 如果多个reduce task都去修改 一个静态的 IntWritable ,IntWritable会乱序吧~输入数据:file1232654321575665223file259562265092file326546import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritabl 阅读全文

posted @ 2014-03-18 16:58 雨渐渐 阅读(1129) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记 (九) hadoop2.2.0 生产环境部署 HDFS HA部署方法
摘要:step1:将安装包hadoop-2.2.0.tar.gz存放到某一个目录下,并解压step2:修改解压后的目录中的文件夹/etc/hadoop下的xml配置文件(如果文件不存在,则自己创建) 包括hadoop-env.sh mapred-site.xml core-site.xml hd... 阅读全文

posted @ 2014-03-18 13:48 雨渐渐 阅读(740) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记 (八) hadoop2.2.0 测试环境部署 及两种启动方式
摘要:1基本流程步骤1:准备硬件(linux操作系统)步骤2:准备软件安装包,并安装基础软件(主要是JDK)步骤3:修改配置文件步骤4:分发hadoop步骤5:启动服务步骤6:验证是否启动成功!2硬件配置要求 1测试环境: 一台pc机或者服务器 建议内存不少于4G(2G也行)---------越高越流... 阅读全文

posted @ 2014-03-18 11:39 雨渐渐 阅读(358) 评论(0) 推荐(0) 编辑

hadoop各版本下载
摘要:http://hadoop.apache.org/Download Hadoop from the release page.http://hadoop.apache.org/releases.htmlDownload a release now!http://www.apache.org/dyn/closer.cgi/hadoop/common/We suggest the following mirror site for your download:他会推荐一个镜像站点(如果这个不好可以换其他的)cdh有两个大的发行版:http://archive-primary.cloudera.co 阅读全文

posted @ 2014-03-18 10:51 雨渐渐 阅读(546) 评论(0) 推荐(0) 编辑

mapreduce (六) MapReduce实现去重 NullWritable的使用
摘要:习题来源:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.htmlfile12012-3-1 a2012-3-2 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-7 c2012-3-... 阅读全文

posted @ 2014-03-17 10:46 雨渐渐 阅读(3886) 评论(0) 推荐(0) 编辑

hadoop 生态系统版本对应问题
摘要:http://hbase.apache.org/book.html这是hortonworks的哦哦哦哦哦哦哦哦哦哦哦哦Hadoop 2.x is better than Hadoop 1.xHadoop 2.x is faster, with more features such as short-circuit reads which will help improve your HBase random read profile as well important bug fixes that will improve your overall HBase experience. You 阅读全文

posted @ 2014-03-17 09:57 雨渐渐 阅读(344) 评论(0) 推荐(0) 编辑

mapreduce (五) MapReduce实现倒排索引 修改版 combiner是把同一个机器上的多个map的结果先聚合一次
摘要:(总感觉上一篇的实现有问题)http://www.cnblogs.com/i80386/p/3444726.html combiner是把同一个机器上的多个map的结果先聚合一次现重新实现一个:思路:第一个mapreduce仅仅做 的统计,即某个单词在某一篇文章里出现的次数。(原理跟wordc... 阅读全文

posted @ 2014-03-14 11:31 雨渐渐 阅读(698) 评论(0) 推荐(0) 编辑

mapreduce (四) MapReduce实现Grep+sort
摘要:1.txtdong xi chengxi dong chengwo ai beijingtian an menqichedongdongdong2.txtdong xi chengxi dong chengwo ai beijingtian an menqichedongdongdongimport... 阅读全文

posted @ 2014-03-13 16:40 雨渐渐 阅读(853) 评论(0) 推荐(0) 编辑

ctr预估模型
摘要:http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d 阅读全文

posted @ 2014-03-12 08:30 雨渐渐 阅读(376) 评论(0) 推荐(0) 编辑

mapreduce (七) 几个实例
摘要:http://hi.baidu.com/hzd2712/item/d2465ae65270ab3e4cdcaf55MapReduce几个典型的例子 在Google的《MapReduce: Simpli ed Data Processing on Large Clusters》论文中,作者... 阅读全文

posted @ 2014-03-11 15:06 雨渐渐 阅读(581) 评论(0) 推荐(0) 编辑

hadoop输出统计
摘要: 阅读全文

posted @ 2014-03-11 10:19 雨渐渐 阅读(145) 评论(0) 推荐(0) 编辑

管道式编程 查找,排序等
摘要:读取Sep-2013下面的所有log文件,并扔进管道cat /home/hadoop/Sep-2013/*/* | python ipmappper.py | sort | python ipreducer.pyvim 1.txtdong xi chengxi dong chengwo ai bei... 阅读全文

posted @ 2014-03-11 09:55 雨渐渐 阅读(234) 评论(0) 推荐(0) 编辑

python中xrange与range的异同
摘要:转载自:http://ciniao.me/article.php?id=17>>> range(5)[0, 1, 2, 3, 4]>>> range(1, 5)[1, 2, 3, 4]>>> range(0, 6, 2)[0, 2, 4]>>> xrange(5)xrange(5)>>> list(xrange(5))[0, 1, 2, 3, 4]>>> xrange(1,5)xrange(1, 5)>>> list(xrange(1,5))[1, 2, 3, 4]&g 阅读全文

posted @ 2014-03-10 17:38 雨渐渐 阅读(363) 评论(0) 推荐(0) 编辑

hadoop如何计算map数和reduce数(未读)
摘要:http://blog.csdn.net/lpxuan151009/article/details/7937821 阅读全文

posted @ 2014-03-10 17:17 雨渐渐 阅读(159) 评论(0) 推荐(0) 编辑

hadoop job执行完的统计信息
摘要:Total committed heap usage (bytes)=1084792832 Physical memory (bytes) snapshot=1456316416 Virtual memory (bytes) snapshot=4766052352 这是统计的作业运行过程(从开始到最后结束)中,累加的jvm总内存使用量,总物理内存使用量总虚拟内存使用量,这几个内存的含义属于操作系统范畴的概念, 阅读全文

posted @ 2014-03-06 14:57 雨渐渐 阅读(268) 评论(0) 推荐(0) 编辑

hdfs 常用命令
摘要:(2)bin/hdfs dfs -mkdir -p /home/雨渐渐(3)scp /media/root/DCE28B65E28B432E/download/第2周/ChinaHadoop第二讲\(1\).mp4 root@192.168.2.200:/data/hadoop/bin/hdfs d... 阅读全文

posted @ 2014-03-05 16:52 雨渐渐 阅读(783) 评论(0) 推荐(0) 编辑

hadoop hdfs 命令行 设置文件夹大小的上限 quota:配额
摘要:》bin/hdfs dfs -put readme.txt /finance》bin/hdfs dfs -du -s /finance》3901 /finance》bin/hdfs dfsadmin -setSpaceQuota 4000 /finance 设置/finance的大小上限为4000个字节》bin/hdfs dfs -put readme1.txt /finance 由于已经超出4000个字节,则会报错14/03/04 11:56:31 WARN hdfs.DFSClient: DataStreamer Exceptionorg.apache.hadoop.hdfs.pro... 阅读全文

posted @ 2014-03-04 12:07 雨渐渐 阅读(6148) 评论(0) 推荐(0) 编辑

导航