2014 年 9月随笔档案 - 谭志宇

Storm处理流程, 基本参数配置

摘要：配置选项名称配置选项作用topology.max.task.parallelism每个Topology运行时最大的executor数目topology.workers每个Topology运行时的worker的默认数目，若在代码中设置，则此选项值被覆盖storm.zookeeper.serverszo... 阅读全文

posted @ 2014-09-30 07:38 谭志宇阅读(6817) 评论(0) 推荐(0) 编辑

解决Storm 和yarn 8080 端口冲突

摘要：本机装了Yarn和Storm后，启动Storm后，发现NodeMange无法启动，找了下没找着在哪修改。只好修改Storm的配置,在配置上添加ui.port: "9999"再启动，问题解决. 阅读全文

posted @ 2014-09-29 21:23 谭志宇阅读(1143) 评论(0) 推荐(0) 编辑

TridentState分析

摘要：public class TridentState { TridentTopology _topology; Node _node; protected TridentState(TridentTopology topology, Node node) { _... 阅读全文

posted @ 2014-09-29 11:00 谭志宇阅读(542) 评论(0) 推荐(0) 编辑

Trident中 FixedBatchSpout分析

摘要：FixedBatchSpout 继承自 IBatchSpoutIBatchSpout 方法public interface IBatchSpout extends Serializable { void open(Map conf, TopologyContext context); v... 阅读全文

posted @ 2014-09-29 10:21 谭志宇阅读(2228) 评论(0) 推荐(0) 编辑

Java序列简单使用

摘要：package javatest;import java.io.*;public class SerializableTest implements Serializable { public static class Test implements Serializable { private ... 阅读全文

posted @ 2014-09-29 10:01 谭志宇阅读(346) 评论(0) 推荐(0) 编辑

JVM 监控以及内存分析

摘要：1 内存分析1.1 jmap -histo 命令pid=`jps | awk '{if ($2 == "Jps") print $1}'`jmap -histo $pid >>1.txt 查看pid中类的内存占用num #instances（实例数） #bytes(占用字节) class name 阅读全文

posted @ 2014-09-28 15:40 谭志宇阅读(8692) 评论(0) 推荐(0) 编辑

Zookeeper入门开发demo

摘要：package CreateGroup;import java.io.IOException;import java.util.List;import java.util.concurrent.CountDownLatch;import org.apache.zookeeper.AsyncCallb... 阅读全文

posted @ 2014-09-28 09:37 谭志宇阅读(7387) 评论(0) 推荐(0) 编辑

Zookeeper常用命令

摘要：3 常用命令3.1. 启动ZK服务: bin/zkServer.sh start3.2. 查看ZK服务状态: bin/zkServer.sh status3.3 停止ZK服务: bin/zkServer.sh stop3.4. 重启ZK服务: bin/zkServer.sh restart 3.5 ... 阅读全文

posted @ 2014-09-28 09:26 谭志宇阅读(24144) 评论(0) 推荐(0) 编辑

Zookeeper watch参照表

摘要：Watcher设置是开发中最常见的，需要搞清楚watcher的一些基本特征，对于exists、getdata、getchild对于节点的不同操作会收到不同的watcher信息。对父节点的变更以及孙节点的变更都不会触发watcher，而对watcher本身节点以及子节点的变更会触发 watcher，... 阅读全文

posted @ 2014-09-27 23:40 谭志宇阅读(1310) 评论(0) 推荐(0) 编辑

Java notify的使用

摘要：半路出家学习java, 花了几分钟简单看了。在早上那个例子上稍微改了下，notify 对象上必须使用synchronized我的理解是在java synchronized只是个线程同步标志，但是不会堵塞线程，而wait会堵塞调用者线程，类windows的堵塞函数，而notify相当于解锁（个人把它当... 阅读全文

posted @ 2014-09-27 21:00 谭志宇阅读(2697) 评论(0) 推荐(0) 编辑

connectedSignal 简单使用

摘要：import java.util.concurrent.CountDownLatch;public class CountDown { private static CountDownLatch connectedSignal = new CountDownLatch(50); static cla... 阅读全文

posted @ 2014-09-27 10:30 谭志宇阅读(497) 评论(0) 推荐(0) 编辑

Storm 中drpc调用

摘要：package storm.starter;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.LocalDRPC;import backtype.storm.StormSubmi... 阅读全文

posted @ 2014-09-23 20:12 谭志宇阅读(1247) 评论(0) 推荐(0) 编辑

yarn下资源配置

摘要：http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.6.0/bk_installing_manually_book/content/rpm-chap1-11.html(公式)http://developer.51cto.com/art/2014... 阅读全文

posted @ 2014-09-23 06:28 谭志宇阅读(468) 评论(0) 推荐(0) 编辑

java 中 Stringbuff append源代码浅析

摘要：public synchronized StringBuffer append(String str) { super.append(str); return this; } // 同步方法public AbstractStringBuilder append(String str) { if (s... 阅读全文

posted @ 2014-09-21 08:45 谭志宇阅读(2154) 评论(0) 推荐(0) 编辑

总结的MR中连接操作

摘要：1 reduce side join在map端加上标记, 在reduce容器保存，然后作笛卡尔积缺点: 有可能oom2 map side join 2.1 利用内存和分布式缓存，也有oom风险2.2 自己的想法，参考hive桶的思路, 第一次MR，将两个文件相同的方法分文件输出并打上标记，排序输出，... 阅读全文

posted @ 2014-09-20 20:36 谭志宇阅读(509) 评论(0) 推荐(0) 编辑

hive中使用rcfile

摘要：（1）建student & student1 表：（hive 托管）create table student(id INT, age INT, name STRING)partitioned by(stat_date STRING) clustered by(id) sorted by(age) ... 阅读全文

posted @ 2014-09-19 17:46 谭志宇阅读(5116) 评论(0) 推荐(0) 编辑

MapFile

摘要：MapFile是排序后的SequenceFile, 这个排序是由开发者来保证的，不是内存实现.相当于对key作了一个分块索引, 只针对key.缺点1.文件不支持复写操作，不能向已存在的SequenceFile(MapFile)追加存储记录2.当write流不关闭的时候，没有办法构造read流。也就... 阅读全文

posted @ 2014-09-18 11:07 谭志宇阅读(252) 评论(0) 推荐(0) 编辑

HDFS副本存放读取

摘要：HDFS作为Hadoop中的一个分布式文件系统，而且是专门为它的MapReduce设计，所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外，还必须为 MapReduce提供高效的读写性能，那么HDFS是如何做到这些的呢？首先，HDFS将每一个文件的数据进行分块存储，同时每一个数据块又保存有... 阅读全文

posted @ 2014-09-18 11:00 谭志宇阅读(7090) 评论(1) 推荐(1) 编辑

Mapreduce-Partition分析(转)

摘要：http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要... 阅读全文

posted @ 2014-09-13 22:26 谭志宇阅读(405) 评论(0) 推荐(0) 编辑

hadoop核心逻辑shuffle代码分析-map端 (转)

摘要：一直对书和各种介绍不太满意，终于看到一篇比较好的了，迅速转载.首先要推荐一下：http://www.alidata.org/archives/1470阿里的大牛在上面的文章中比较详细的介绍了shuffle过程中mapper和reduce的每个过程，强烈推荐先读一下。不过，上文没有写明一些实现的细节... 阅读全文

posted @ 2014-09-13 19:46 谭志宇阅读(316) 评论(0) 推荐(0) 编辑

MR中简单实现自定义的输入输出格式

摘要：import java.io.DataOutput;import java.io.IOException;import java.util.HashMap;import java.util.Map;import org.apache.hadoop.conf.Configuration;import ... 阅读全文

posted @ 2014-09-08 20:47 谭志宇阅读(1424) 评论(0) 推荐(0) 编辑

简单实现CombineFileInputFormat

摘要：import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.a... 阅读全文

posted @ 2014-09-08 12:19 谭志宇阅读(1449) 评论(0) 推荐(0) 编辑

提高mapreduce性能的七点建议

摘要：Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统，并且它们运行着各式各样用户的代码，这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来，调整cluster或job的运行更像一个医生对待病人... 阅读全文

posted @ 2014-09-05 11:33 谭志宇阅读(763) 评论(0) 推荐(0) 编辑

MR中使用sequnceFIle输入文件

摘要：转换原始数据为块压缩的SequenceFIleimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.FileSystem;imp... 阅读全文

posted @ 2014-09-04 21:37 谭志宇阅读(1645) 评论(0) 推荐(0) 编辑

Hive中使用LZO

摘要：hive 中使用lzo 1 启动hive 错误Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf at java.lang.Class.forName0(Na... 阅读全文

posted @ 2014-09-01 16:55 谭志宇阅读(3413) 评论(0) 推荐(0) 编辑

JVM启动参数详解 (转)

摘要：非标准参数非标准参数又称为扩展参数，其列表如下： -Xint 设置jvm以解释模式运行，所有的字节码将被直接执行，而不会编译成本地码。 -Xbatch 关闭后台代码编译，强制在前台编译，编译完成之后才能进行代码执行；默认情况下，jvm在后台进行编译，若没有编译完成，则前台运行代码时以解释模式运行... 阅读全文

posted @ 2014-09-01 12:03 谭志宇阅读(1882) 评论(0) 推荐(0) 编辑

09 2014 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论