摘要:
1. Excel2003与Excel2007 两个版本的最大行数和列数不同,2003版最大行数是65536行,最大列数是256列,2007版及以后的版本最大行数是1048576行,最大列数是16384列。 excel2003是以二进制的方式存储,这种格式不易被其他软件读取使用;而excel2007采 阅读全文
摘要:
kafka相关的常用命令 后台启动kafka kafka-server-start.sh /opt/app/kafka_2.11-1.1.0/config/server.properties > /dev/null 2>&1 & 关闭kafka kafka-server-stop.sh 创建topi 阅读全文
摘要:
1. Kafka入门介绍 1.1 Apache Kafka是一个分布式的流平台。这到底意味着什么? 我们认为,一个流平台具有三个关键能力: ① 发布和订阅消息。在这方面,它类似一个消息队列或企业消息系统。(生产和消费消息) ② 以容错的方式存储消息流。(存储消息) ③ 当消息流发生时处理它们。(处理 阅读全文
摘要:
1 Flume Sources 1.1 Avro Source 监听Avro端口,从Avro client streams接收events。要求属性是粗体字。 agent a1例子: ipFilterRules例子: ipFilterRules=allow:ip:127.*, allow:name: 阅读全文
摘要:
1. Flume Interceptors Flume有能力修改/删除流程中的events。这是在拦截器(interceptor)的帮助下完成的。拦截器(Interceptors)是实现org.apache.flume.interceptor.Interceptor接口的类。一个intercepto 阅读全文
摘要:
1. Flume Channel Channels是events在agent上进行的存储库。Source添加events,Sink移除events。 1.1 Memory Channel(内存Channels) events存储在配置最大大小的内存队列中。对于流量较高和由于agent故障而准备丢失数 阅读全文
摘要:
1. Flume Sinks 1.1 HDFS Sink 该sink把events写进Hadoop分布式文件系统(HDFS)。它目前支持创建文本和序列文件。它支持在两种文件类型压缩。文件可以基于数据的经过时间或者大小或者事件的数量周期性地滚动。它还通过属性(如时间戳或发生事件的机器)把数据划分为桶或 阅读全文
摘要:
1. 系统要求 1. Java运行环境 —— Java 1.8及以上 2. 内存 —— 足够的内存供配置的sources,channels 或者sinks使用 3. 硬盘空间 —— 足够的硬盘空间供配置的channels或者sinks使用 4. 文件权限 —— agent使用的文件夹读写权限 2. 阅读全文
摘要:
概述: Apache Flume是一个分布式、可用的系统,用于从许多不同的sources有效的收集并移动大量日志数据用于集中存储数据。 架构及数据流动模型: flume实际上就是一个Agent。Agent里面包含三大组件:Source、Channel、Sink。 Flume agent流动的数据单位 阅读全文
摘要:
1. 下载Spark 1.1 官网下载Spark http://spark.apache.org/downloads.html 打开上述链接,进入到下图,点击红框下载Spark-2.2.0-bin-hadoop2.7.tgz,如下图所示: 2. 安装Spark Spark安装,分为: 准备,包括上传 阅读全文