01 2018 档案
摘要:1. Spark Overview(spark概述) Apache spark是一个快速和通用的集群计算系统。它提供了Java,Scala,Python和R的高级APIs,以及支持通用执行图的优化引擎。它也支持一系列高级工具,包括用于SQL的Spark SQL、结构化数据处理、用于机器学习的MLli
阅读全文
摘要:1. Excel2003与Excel2007 两个版本的最大行数和列数不同,2003版最大行数是65536行,最大列数是256列,2007版及以后的版本最大行数是1048576行,最大列数是16384列。 excel2003是以二进制的方式存储,这种格式不易被其他软件读取使用;而excel2007采
阅读全文
摘要:kafka相关的常用命令 后台启动kafka kafka-server-start.sh /opt/app/kafka_2.11-1.1.0/config/server.properties > /dev/null 2>&1 & 关闭kafka kafka-server-stop.sh 创建topi
阅读全文
摘要:1. Kafka入门介绍 1.1 Apache Kafka是一个分布式的流平台。这到底意味着什么? 我们认为,一个流平台具有三个关键能力: ① 发布和订阅消息。在这方面,它类似一个消息队列或企业消息系统。(生产和消费消息) ② 以容错的方式存储消息流。(存储消息) ③ 当消息流发生时处理它们。(处理
阅读全文
摘要:1 Flume Sources 1.1 Avro Source 监听Avro端口,从Avro client streams接收events。要求属性是粗体字。 agent a1例子: ipFilterRules例子: ipFilterRules=allow:ip:127.*, allow:name:
阅读全文
摘要:1. Flume Interceptors Flume有能力修改/删除流程中的events。这是在拦截器(interceptor)的帮助下完成的。拦截器(Interceptors)是实现org.apache.flume.interceptor.Interceptor接口的类。一个intercepto
阅读全文
摘要:1. Flume Channel Channels是events在agent上进行的存储库。Source添加events,Sink移除events。 1.1 Memory Channel(内存Channels) events存储在配置最大大小的内存队列中。对于流量较高和由于agent故障而准备丢失数
阅读全文
摘要:1. Flume Sinks 1.1 HDFS Sink 该sink把events写进Hadoop分布式文件系统(HDFS)。它目前支持创建文本和序列文件。它支持在两种文件类型压缩。文件可以基于数据的经过时间或者大小或者事件的数量周期性地滚动。它还通过属性(如时间戳或发生事件的机器)把数据划分为桶或
阅读全文