摘要:
一、先来说一下,ClickHouse为啥快 MySQL单条SQL是单线程的,只能跑满一个core,ClickHouse相反,有多少CPU,吃多少资源,所以飞快; ClickHouse不支持事务,不存在隔离级别。这里要额外说一下,有人觉得,你一个数据库都不支持事务,不支持ACID还玩个毛。ClickH 阅读全文
摘要:
常用SQL 创建表 1 2 3 4 5 6 7 CREATE TABLE b6logs( eventDate Date, impid UInt64, uid String, idfa String, imei String ) ENGINE=MergeTree(eventDate, (impid, 阅读全文
摘要:
Transformation 和 Action 常用算子 一、Transformation 1.1 map 1.2 filter 1.3 flatMap 1.4 mapPartitions 1.5 mapPartitionsWithIndex 1.6 sample 1.7 union 1.8 i 阅读全文
摘要:
弹性式数据集RDD 一、RDD简介二、创建RDD 2.1 由现有集合创建 2.2 引用外部存储系统中的数据集 2.3 textFile & wholeTextFiles三、操作RDD四、缓存RDD 4.1 缓存级别 4.2 使用缓存 4.3 移除缓存五、理解shuffle 5.1 shuffle 阅读全文
摘要:
Spark Streaming 整合 Kafka 一、版本说明二、项目依赖三、整合Kafka 3.1 ConsumerRecord 3.2 生产者属性 3.3 位置策略 3.4 订阅方式 3.5 提交偏移量四、启动测试 一、版本说明 Spark 针对 Kafka 的不同版本,提供了两套整合方 阅读全文
摘要:
Spark Streaming 整合 Flume 一、简介二、推送式方法 2.1 配置日志收集Flume 2.2 项目依赖 2.3 Spark Streaming接收日志数据 2.4 项目打包 2.5 启动服务和提交作业 2.6 测试 2.7 注意事项三、拉取式方法 3.1 配置日志收集Flum 阅读全文