摘要: 一、Streaming与Flume的联调 Spark 2.2.0 对应于 Flume 1.6.0 两种模式: 1. Flume-style push-based approach: Flume推送数据給Streaming Streaming的receiver作为Flume的Avro agent Sp 阅读全文
posted @ 2018-03-11 15:37 KINGHEY 阅读(7088) 评论(0) 推荐(0) 编辑
摘要: 一、Spark Streaming概述: 是基于Spark core的API,不需要单独安装,一盏式解决 可扩展、高吞吐量、容错性、能够运行在多节点、结合了批处理、机器学习、图计算等 将不同的数据源的数据经过Spark Streaming处理后输出到外部文件系统 1. 应用场景: 实时交易防欺诈检测 阅读全文
posted @ 2018-03-11 15:15 KINGHEY 阅读(804) 评论(0) 推荐(0) 编辑
摘要: 一、官网教程案例学习 Kafka — 分布式消息队列 消息系统 消息中间件:缓冲于生产与消费中间 缓冲满了,可以进行Kafka的扩容 特性: 水平扩展性、容错性、实时、快 Kafka架构: 理解producer、consumer、broker(缓冲区)、topic(标签) 一个配置文件(server 阅读全文
posted @ 2018-03-11 14:58 KINGHEY 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 一、Flume基础部分: Flume -- 日志收集框架 产生背景: 日志分散到各个机器上,又想用大数据平台进行统计分析 从其他server把日志移动收集到集群上,并能够监控,需要有时效性、容错性、负载均衡 Flume 一般通过配置configuration file,来实现各种数据的收集 概述: 阅读全文
posted @ 2018-03-11 14:49 KINGHEY 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 存储格式的选择: 采取行式还是列式存储? 列存储写入时次数多,损耗时间多 反过来查询的时候较快 压缩格式的选择: 考虑压缩速度和压缩文件的分割性 压缩能够较少存储空间、提高数据传输速度 Spark中默认的压缩格式是“snappy” 代码的优化: 选择的高性能的算子: foreachPartition 阅读全文
posted @ 2018-03-11 14:14 KINGHEY 阅读(3463) 评论(0) 推荐(0) 编辑
摘要: 官方教程学习: 转自官网http://echarts.baidu.com/ ECharts 3 开始不再强制使用 AMD 的方式按需引入,代码里也不再内置 AMD 加载器。因此引入方式简单了很多,只需要像普通的 JavaScript 库一样用 script 标签引入。 <!DOCTYPE html> 阅读全文
posted @ 2018-03-11 13:50 KINGHEY 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 一、 基本的离线数据处理架构: 处理框图: 1 2 3 4 5 6 7为离线处理,其中5不一定是Hive(还有Spark SQL等) 6不一定是RDBMS(NoSQL) 执行时,可用调度框架Oozie、Azkaban,指定任务执行的时间 另外一条线是实时处理 拟定项目需求: 互联网日志一般包括有: 阅读全文
posted @ 2018-03-11 11:11 KINGHEY 阅读(7113) 评论(1) 推荐(0) 编辑
摘要: DataFrame不是Spark SQL提出,而是在Pandas就有 DataSet:分布式的数据集 DataFrame:以列的形式构成的分布式数据集(RDD with schema) 可以从各种source转换成,如RDD、SQL、noSQL等 做了抽象的处理 DataFrame对比RDD Dat 阅读全文
posted @ 2018-03-11 09:51 KINGHEY 阅读(3601) 评论(0) 推荐(0) 编辑
摘要: Hadoop 2.6 CDH5.7.0 下载地址:http://archive.cloudera.com/cdh5/cdh/5 提供的镜像文件也遇到和我自己配置一样的问题 17/11/23 16:28:20 WARN metastore.ObjectStore: Failed to get data 阅读全文
posted @ 2018-03-11 09:15 KINGHEY 阅读(468) 评论(0) 推荐(0) 编辑