09 2014 档案

摘要:配置选项名称配置选项作用topology.max.task.parallelism每个Topology运行时最大的executor数目topology.workers每个Topology运行时的worker的默认数目,若在代码中设置,则此选项值被覆盖storm.zookeeper.serverszo... 阅读全文
posted @ 2014-09-30 07:38 谭志宇 阅读(6817) 评论(0) 推荐(0) 编辑
摘要:本机装了Yarn和Storm后,启动Storm后,发现NodeMange无法启动,找了下没找着在哪修改。只好修改Storm的配置,在配置上添加ui.port: "9999"再启动,问题解决. 阅读全文
posted @ 2014-09-29 21:23 谭志宇 阅读(1143) 评论(0) 推荐(0) 编辑
摘要:public class TridentState { TridentTopology _topology; Node _node; protected TridentState(TridentTopology topology, Node node) { _... 阅读全文
posted @ 2014-09-29 11:00 谭志宇 阅读(542) 评论(0) 推荐(0) 编辑
摘要:FixedBatchSpout 继承自 IBatchSpoutIBatchSpout 方法public interface IBatchSpout extends Serializable { void open(Map conf, TopologyContext context); v... 阅读全文
posted @ 2014-09-29 10:21 谭志宇 阅读(2228) 评论(0) 推荐(0) 编辑
摘要:package javatest;import java.io.*;public class SerializableTest implements Serializable { public static class Test implements Serializable { private ... 阅读全文
posted @ 2014-09-29 10:01 谭志宇 阅读(346) 评论(0) 推荐(0) 编辑
摘要:1 内存分析1.1 jmap -histo 命令pid=`jps | awk '{if ($2 == "Jps") print $1}'`jmap -histo $pid >>1.txt 查看pid中类的内存占用num #instances(实例数) #bytes(占用字节) class name 阅读全文
posted @ 2014-09-28 15:40 谭志宇 阅读(8692) 评论(0) 推荐(0) 编辑
摘要:package CreateGroup;import java.io.IOException;import java.util.List;import java.util.concurrent.CountDownLatch;import org.apache.zookeeper.AsyncCallb... 阅读全文
posted @ 2014-09-28 09:37 谭志宇 阅读(7387) 评论(0) 推荐(0) 编辑
摘要:3 常用命令3.1. 启动ZK服务: bin/zkServer.sh start3.2. 查看ZK服务状态: bin/zkServer.sh status3.3 停止ZK服务: bin/zkServer.sh stop3.4. 重启ZK服务: bin/zkServer.sh restart 3.5 ... 阅读全文
posted @ 2014-09-28 09:26 谭志宇 阅读(24144) 评论(0) 推荐(0) 编辑
摘要:Watcher设置是开发中最常见的,需要搞清楚watcher的一些基本特征,对于exists、getdata、getchild对于节点的不同操 作会收到不同的watcher信息。对父节点的变更以及孙节点的变更都不会触发watcher,而对watcher本身节点以及子节点的变更会触发 watcher,... 阅读全文
posted @ 2014-09-27 23:40 谭志宇 阅读(1310) 评论(0) 推荐(0) 编辑
摘要:半路出家学习java, 花了几分钟简单看了。在早上那个例子上稍微改了下,notify 对象上必须使用synchronized我的理解是在java synchronized只是个线程同步标志,但是不会堵塞线程,而wait会堵塞调用者线程,类windows的堵塞函数,而notify相当于解锁(个人把它当... 阅读全文
posted @ 2014-09-27 21:00 谭志宇 阅读(2697) 评论(0) 推荐(0) 编辑
摘要:import java.util.concurrent.CountDownLatch;public class CountDown { private static CountDownLatch connectedSignal = new CountDownLatch(50); static cla... 阅读全文
posted @ 2014-09-27 10:30 谭志宇 阅读(497) 评论(0) 推荐(0) 编辑
摘要:package storm.starter;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.LocalDRPC;import backtype.storm.StormSubmi... 阅读全文
posted @ 2014-09-23 20:12 谭志宇 阅读(1247) 评论(0) 推荐(0) 编辑
摘要:http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.6.0/bk_installing_manually_book/content/rpm-chap1-11.html(公式)http://developer.51cto.com/art/2014... 阅读全文
posted @ 2014-09-23 06:28 谭志宇 阅读(468) 评论(0) 推荐(0) 编辑
摘要:public synchronized StringBuffer append(String str) { super.append(str); return this; } // 同步方法public AbstractStringBuilder append(String str) { if (s... 阅读全文
posted @ 2014-09-21 08:45 谭志宇 阅读(2154) 评论(0) 推荐(0) 编辑
摘要:1 reduce side join在map端加上标记, 在reduce容器保存,然后作笛卡尔积缺点: 有可能oom2 map side join 2.1 利用内存和分布式缓存,也有oom风险2.2 自己的想法,参考hive桶的思路, 第一次MR,将两个文件相同的方法分文件输出并打上标记,排序输出,... 阅读全文
posted @ 2014-09-20 20:36 谭志宇 阅读(509) 评论(0) 推荐(0) 编辑
摘要:(1)建student & student1 表:(hive 托管)create table student(id INT, age INT, name STRING)partitioned by(stat_date STRING) clustered by(id) sorted by(age) ... 阅读全文
posted @ 2014-09-19 17:46 谭志宇 阅读(5116) 评论(0) 推荐(0) 编辑
摘要:MapFile是排序后的SequenceFile, 这个排序是由开发者来保证的, 不是内存实现.相当于对key作了一个分块索引, 只针对key.缺点1.文件不支持复写操作,不能向已存在的SequenceFile(MapFile)追加存储记录2.当write流不关闭的时候,没有办法构造read流。也就... 阅读全文
posted @ 2014-09-18 11:07 谭志宇 阅读(252) 评论(0) 推荐(0) 编辑
摘要:HDFS作为Hadoop中 的一个分布式文件系统,而且是专门为它的MapReduce设计,所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外,还必须为 MapReduce提供高效的读写性能,那么HDFS是如何做到这些的呢?首先,HDFS将每一个文件的数据进行分块存储,同时每一个数据块又保存有... 阅读全文
posted @ 2014-09-18 11:00 谭志宇 阅读(7090) 评论(1) 推荐(1) 编辑
摘要:http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要... 阅读全文
posted @ 2014-09-13 22:26 谭志宇 阅读(405) 评论(0) 推荐(0) 编辑
摘要:一直对书和各种介绍不太满意, 终于看到一篇比较好的了,迅速转载.首先要推荐一下:http://www.alidata.org/archives/1470阿里的大牛在上面的文章中比较详细的介绍了shuffle过程中mapper和reduce的每个过程,强烈推荐先读一下。不过,上文没有写明一些实现的细节... 阅读全文
posted @ 2014-09-13 19:46 谭志宇 阅读(316) 评论(0) 推荐(0) 编辑
摘要:import java.io.DataOutput;import java.io.IOException;import java.util.HashMap;import java.util.Map;import org.apache.hadoop.conf.Configuration;import ... 阅读全文
posted @ 2014-09-08 20:47 谭志宇 阅读(1424) 评论(0) 推荐(0) 编辑
摘要:import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.a... 阅读全文
posted @ 2014-09-08 12:19 谭志宇 阅读(1449) 评论(0) 推荐(0) 编辑
摘要:Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化 代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人... 阅读全文
posted @ 2014-09-05 11:33 谭志宇 阅读(763) 评论(0) 推荐(0) 编辑
摘要:转换原始数据为块压缩的SequenceFIleimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.FileSystem;imp... 阅读全文
posted @ 2014-09-04 21:37 谭志宇 阅读(1645) 评论(0) 推荐(0) 编辑
摘要:hive 中使用lzo 1 启动hive 错误Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf at java.lang.Class.forName0(Na... 阅读全文
posted @ 2014-09-01 16:55 谭志宇 阅读(3413) 评论(0) 推荐(0) 编辑
摘要:非标准参数非标准参数又称为扩展参数,其列表如下: -Xint 设置jvm以解释模式运行,所有的字节码将被直接执行,而不会编译成本地码。 -Xbatch 关闭后台代码编译,强制在前台编译,编译完成之后才能进行代码执行; 默认情况下,jvm在后台进行编译,若没有编译完成,则前台运行代码时以解释模式运行... 阅读全文
posted @ 2014-09-01 12:03 谭志宇 阅读(1882) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示