2020 年 1月 9 日随笔档案 - ~清风煮酒~

2020年1月9日

摘要： SparkStreaming中foreachRDD SparkStreaming是流式实时处理数据，就是将数据流按照定义的时间进行分割（就是“批处理”）。每一个时间段内处理的都是一个RDD。而SparkStreaming中的foreachRDD方法就是在处理每一个时间段内的RDD数据。 DStrea 阅读全文

posted @ 2020-01-09 16:54 ~清风煮酒~ 阅读(122) 评论(0) 推荐(0) 编辑

scala_spark实践3

摘要： Spark 读写HBase优化读数据可以采用RDD的方式读取HBase数据： val conf = HBaseConfiguration.create() conf.set(TableInputFormat.INPUT_TABLE, hTabName) //设置查询的表名 val rdd = s 阅读全文

posted @ 2020-01-09 16:36 ~清风煮酒~ 阅读(170) 评论(0) 推荐(0) 编辑

scala_spark实践2

摘要：参考：jianshu.com/p/9d2d225c1951 监听socket获取数据，代码如下：这里使用nc -lk 9999 在ip为10.121.33.44的机器上发送消息 object SocketStream { def main(args: Array[String]): Unit = { 阅读全文

posted @ 2020-01-09 16:23 ~清风煮酒~ 阅读(165) 评论(0) 推荐(0) 编辑

scala_spark实践1

摘要： /** * scala模型的main(args:Array[String])是业务执行入口 * org.apache.spark.{SparkConf, SparkContext} * val sparkConf =new SparkConf().setAppName(appName) * val 阅读全文

posted @ 2020-01-09 15:52 ~清风煮酒~ 阅读(192) 评论(0) 推荐(0) 编辑

狂奔小蜗牛

公告