2018 年 3月 11 日随笔档案 - KINGHEY

2018年3月11日

摘要：一、Streaming与Flume的联调 Spark 2.2.0 对应于 Flume 1.6.0 两种模式： 1. Flume-style push-based approach： Flume推送数据給Streaming Streaming的receiver作为Flume的Avro agent Sp 阅读全文

posted @ 2018-03-11 15:37 KINGHEY 阅读(7088) 评论(0) 推荐(0) 编辑

Spark Streaming基础

摘要：一、Spark Streaming概述：是基于Spark core的API，不需要单独安装，一盏式解决可扩展、高吞吐量、容错性、能够运行在多节点、结合了批处理、机器学习、图计算等将不同的数据源的数据经过Spark Streaming处理后输出到外部文件系统 1. 应用场景：实时交易防欺诈检测阅读全文

posted @ 2018-03-11 15:15 KINGHEY 阅读(804) 评论(0) 推荐(0) 编辑

Kafka初步学习

摘要：一、官网教程案例学习 Kafka — 分布式消息队列消息系统消息中间件：缓冲于生产与消费中间缓冲满了，可以进行Kafka的扩容特性：水平扩展性、容错性、实时、快 Kafka架构：理解producer、consumer、broker（缓冲区）、topic（标签）一个配置文件（server 阅读全文

posted @ 2018-03-11 14:58 KINGHEY 阅读(493) 评论(0) 推荐(0) 编辑

Flume初步学习

摘要：一、Flume基础部分： Flume -- 日志收集框架产生背景：日志分散到各个机器上，又想用大数据平台进行统计分析从其他server把日志移动收集到集群上，并能够监控，需要有时效性、容错性、负载均衡 Flume 一般通过配置configuration file，来实现各种数据的收集概述：阅读全文

posted @ 2018-03-11 14:49 KINGHEY 阅读(421) 评论(0) 推荐(0) 编辑

Spark SQL项目中的优化思路

摘要：存储格式的选择：采取行式还是列式存储？列存储写入时次数多，损耗时间多反过来查询的时候较快压缩格式的选择：考虑压缩速度和压缩文件的分割性压缩能够较少存储空间、提高数据传输速度 Spark中默认的压缩格式是“snappy” 代码的优化：选择的高性能的算子： foreachPartition 阅读全文

posted @ 2018-03-11 14:14 KINGHEY 阅读(3463) 评论(0) 推荐(0) 编辑

ECharts初步学习

摘要：官方教程学习：转自官网http://echarts.baidu.com/ ECharts 3 开始不再强制使用 AMD 的方式按需引入，代码里也不再内置 AMD 加载器。因此引入方式简单了很多，只需要像普通的 JavaScript 库一样用 script 标签引入。 <!DOCTYPE html> 阅读全文

posted @ 2018-03-11 13:50 KINGHEY 阅读(641) 评论(0) 推荐(0) 编辑

Spark SQL实现日志离线批处理

摘要：一、基本的离线数据处理架构：处理框图： 1 2 3 4 5 6 7为离线处理，其中5不一定是Hive（还有Spark SQL等） 6不一定是RDBMS（NoSQL）执行时，可用调度框架Oozie、Azkaban，指定任务执行的时间另外一条线是实时处理拟定项目需求：互联网日志一般包括有：阅读全文

posted @ 2018-03-11 11:11 KINGHEY 阅读(7113) 评论(1) 推荐(0) 编辑

DataFrame的理解

摘要： DataFrame不是Spark SQL提出，而是在Pandas就有 DataSet：分布式的数据集 DataFrame：以列的形式构成的分布式数据集（RDD with schema）可以从各种source转换成，如RDD、SQL、noSQL等做了抽象的处理 DataFrame对比RDD Dat 阅读全文

posted @ 2018-03-11 09:51 KINGHEY 阅读(3601) 评论(0) 推荐(0) 编辑

集群搭建问题

摘要： Hadoop 2.6 CDH5.7.0 下载地址：http://archive.cloudera.com/cdh5/cdh/5 提供的镜像文件也遇到和我自己配置一样的问题 17/11/23 16:28:20 WARN metastore.ObjectStore: Failed to get data 阅读全文

posted @ 2018-03-11 09:15 KINGHEY 阅读(468) 评论(0) 推荐(0) 编辑