……

2020年5月15日
摘要: 一、先来说一下,ClickHouse为啥快 MySQL单条SQL是单线程的,只能跑满一个core,ClickHouse相反,有多少CPU,吃多少资源,所以飞快; ClickHouse不支持事务,不存在隔离级别。这里要额外说一下,有人觉得,你一个数据库都不支持事务,不支持ACID还玩个毛。ClickH 阅读全文
posted @ 2020-05-15 16:15 大码王 阅读(4190) 评论(1) 推荐(1) 编辑
摘要: 常用SQL 创建表 1 2 3 4 5 6 7 CREATE TABLE b6logs( eventDate Date, impid UInt64, uid String, idfa String, imei String ) ENGINE=MergeTree(eventDate, (impid, 阅读全文
posted @ 2020-05-15 16:06 大码王 阅读(5417) 评论(0) 推荐(0) 编辑
摘要: Transformation 和 Action 常用算子 ​ 一、Transformation 1.1 map 1.2 filter 1.3 flatMap 1.4 mapPartitions 1.5 mapPartitionsWithIndex 1.6 sample 1.7 union 1.8 i 阅读全文
posted @ 2020-05-15 09:40 大码王 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 弹性式数据集RDD ​ 一、RDD简介二、创建RDD 2.1 由现有集合创建 2.2 引用外部存储系统中的数据集 2.3 textFile & wholeTextFiles三、操作RDD四、缓存RDD 4.1 缓存级别 4.2 使用缓存 4.3 移除缓存五、理解shuffle 5.1 shuffle 阅读全文
posted @ 2020-05-15 09:38 大码王 阅读(322) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 整合 Kafka ​ 一、版本说明二、项目依赖三、整合Kafka 3.1 ConsumerRecord 3.2 生产者属性 3.3 位置策略 3.4 订阅方式 3.5 提交偏移量四、启动测试 ​ 一、版本说明 Spark 针对 Kafka 的不同版本,提供了两套整合方 阅读全文
posted @ 2020-05-15 09:35 大码王 阅读(414) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 整合 Flume ​ 一、简介二、推送式方法 2.1 配置日志收集Flume 2.2 项目依赖 2.3 Spark Streaming接收日志数据 2.4 项目打包 2.5 启动服务和提交作业 2.6 测试 2.7 注意事项三、拉取式方法 3.1 配置日志收集Flum 阅读全文
posted @ 2020-05-15 09:32 大码王 阅读(454) 评论(0) 推荐(0) 编辑
复制代码