07 2019 档案
摘要:1.MapWithState 小案列 Spark Stream:以批处理为主,用微批处理来处理流数据 Flink:真正的流式处理,以流处理为主,用流处理来处理批数据 但是Spark的Strurctured Stream 确实是真正的流式处理来处理批数据 但是Spark的structured Stre
阅读全文
摘要:Spark Stream简介 SparkStreaming是一套框架。 SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。 支持多种数据源获取数据: Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数
阅读全文
摘要:Catalog API 访问Catalog Catalog可以通过SparkSession获取,下面代码展示如何获取Catalog: Querying the databases 我们一旦创建好catalog对象之后,我们可以使用它来查询元数据中的数据库,catalog上的API返回的结果全部都是d
阅读全文
摘要:自定义函数 运行结果 + + + +|name| like |num|+ + + +|17er |ruoze,j哥,星星,小海| 4|| 老二| zwr,17er | 2 || 小海| 苍老师,波老师 | 2 |+ + + + 定义了每个人喜欢的人的个数的函数;以上的是定义函数以后通过sql来使用的
阅读全文
摘要:kafka的部署模式 实际的生产环境中使用的是第3中方式,以集群的方式来部署kafka。kafka强依赖ZK,如果想要使用Kafka,就必须安装ZK,kafka中的消息偏置信息、kafka集群、topic信息会被存储在ZK中。有人可能会说在在使用kafka的时候就没有安装ZK,那是因为kafka内置
阅读全文
摘要:DataSet简介 Dataset的演变流程:SchemaRDD->DataFrame->DataSet DataSet的操作方式和DataFrame几乎没有区别,它是spark1.6出现的 DataSet是Strong type 为什么官方要推出DataSet? 如一个sql: selec a f
阅读全文
摘要:DataFrame(重点) 无论是啥语言写的Spark SQL,还是用啥API,最终底层都是专成逻辑执行计划 SparkSession.sql() SparkSession.sql() DataFrame.show(),默认显示20条,字段字符超过一定长度就会被截取 DataFrame.show()
阅读全文
摘要:常见的SQL On Hadoop框架 hive(非常重要):最原始的on hadoop的方案,由facebook贡献;将sql转化为底层MR/Tez/Spark作业;hive的metastore存储了表和库的所有信息,而且他几乎是和所有 on hadoop的框架通用的,hive2.x.x版本速度上有
阅读全文
摘要:文件内容: 文件内容: 方法一:反射,通过RDD[CaseClass] 自定义 CaseClass 方法一:反射,通过RDD[CaseClass] 转成DF以后,就相当于有了schema,就可以当成table啦 方法二: 通过RDD[Row]+Schema 方法二: 通过RDD[Row]+Schem
阅读全文
摘要:环境背景 Zookeeper部署 参照第4部 flume的部署 kafka部署 kafka部署 配置Flume作业 配置Flume作业 使用Flume的TailDir Source采集数据发送到Kafka以及HDFS。具体配置如下: 启动命令 启动命令
阅读全文