07 2017 档案
摘要:1,one source two channel 创建conf文件,内容如下: 2,启动HDFS 3,启动flume 4, 报错1: 问题原因:缺少依赖包,这个依赖包是以下jar文件 解决办法: 报错2: 问题原因:缺少依赖包 解决办法: 报错3: 问题原因:缺少依赖包 解决办法: 报错4: 问题原
阅读全文
摘要:1,上传jar包 2,解压 3,改名 4,更改配置文件 将template文件重镜像 在flume-env.sh文件中更改JAVA_HOME地址: 检查Flume是否安装成功 成功 4, 使用 flume的特点: flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统
阅读全文
摘要:kafka介绍: Kafka[1是一种高吞吐量[2] 的分布式发布订阅消息系统,有如下特性: 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。 高吞吐量[2] :即使是非常普通的硬件Kafka也可以支持每秒数百万[2] 的消息。 支持通过Ka
阅读全文
摘要:Shuffle描述着数据从map task输出到reduce task输入的这段过程。 如map 端的细节图,Shuffle在reduce端的过程也能用图上标明的三点来概括。当前reduce copy数据的前提是它要从JobTracker获得有哪些map task已执行结束,这段过程不表,有兴趣的朋
阅读全文
摘要:1,深复制与浅复制 浅复制:被复制对象的所有变量都含有与原来的对象相同的值,而所有的对其他对象的引用仍然指向原来的对象。换言之,浅复制仅仅复制所考虑的对象,而不复制它所引用的对象。 深复制:被复制对象的所有变量都含有与原来的对象相同的值,除去那些引用其他对象的变量。那些引用其他对象的变量将指向被复制
阅读全文
摘要:1,计数器: 显示的计数器中分为四个组,分别为:File Output Format Counters、FileSystemCounters、File Input Format Counters和Map-Reduce Framkework。 分组File Input Format Counters包
阅读全文
摘要:1,Mapper方法:如果在map方法之前执行一些程序用setup,之后用cleanup.同理在Reducer方法中也有setup和cleanup。 2,map任务是并行执行,没有谁先谁后,如果是两个job,则只能覆盖setup方法。 3,有几个block就有几个map任务。 4,当block的大小
阅读全文