随笔分类 - sparkstreaming
摘要:背景: 电商网站用户在网站的每次行为都会以日志数据的形式加以记录到日志文件中,其中用户的行为数据日志格式如下:1,2268318,pv,1511544070 黑名单用户的定义规则如下: 如果某一件商品被同一用户在1分钟之内点击超过10次,那么此时这个用户就是当前商品的黑名单用户,我们需要将黑名单用户
阅读全文
摘要:Spark Streaming只能充当Kafka的消费者 Spark Steaming整合Kafka数据,读取Kafka数据有两种方式 1、Receiver(使用Spark中接受器去处理Kafka的数据)方法 连接zookeeper集群读取数据 仅作了解(被淘汰) 2、Direct方法--直连kaf
阅读全文
摘要:引入pom依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance
阅读全文
摘要:查看 // 默认是前10条 print(num) 保存数据 一批次产生一个文件 package SparkStreaming.action import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.DStr
阅读全文
摘要:window 画图理解 说明 countByWindow 对每个滑动窗口的数据执行count操作 reduceByWindow 对每个滑动窗口的数据执行reduce操作 reduceByKeyAndWindow 对每个滑动窗口的数据执行reduceByKey操作 countByValueAndWin
阅读全文
摘要:将之前批次的状态保存, package SparkStreaming.trans import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLevel import org.apache.spark.stream
阅读全文
摘要:转换算子1 map,flatMap RDD支持的转换算子DStream大部分都是支持的 map、flatMap、filter、distinct、union、join、reduceByKey...... RDD中部分行动算子DStream会当作转换算子使用,算子的执行逻辑是一样的 package Sp
阅读全文
摘要:推送式 将flume采集的数据主动推送给Spark程序,容易导致Spark程序接受数据出问题,推送式整合是基于avro端口下沉地方式完成 引入SparkStreaming和Flume整合的依赖 <dependency> <groupId>org.apache.spark</groupId> <art
阅读全文
摘要:sparkstreaming创建有两种方式 1. 借助SparkConf对象创建 val conf = new SparkConf().setAppName("streamingContext").setMaster("local[4]") /** * streamingcontext第一种创建方式
阅读全文
摘要:端口 // 地址,端口号,级别(将数据存储在所设置的级别中,这里设置级别为spark的内存) val ds: DStream[String] = ssc.socketTextStream("node1", 44444, StorageLevel.MEMORY_ONLY) 读取HDFS中的数据 imp
阅读全文
摘要:安装nc yum install -y nc 说明 -l, --listen Bind and listen for incoming connections -k, --keep-open Accept multiple connections in listen mode 使用 nc -lk 端
阅读全文
摘要:mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa
阅读全文
摘要:RDD: 以Person为类型参数,但是Spark框架本身不了解Person类的内部结构。 DataFrame: DataFrame每一行的类型固定为Row, 每一列的值没法直接访问,只有通过解析才能获取各个字段的值。 DataSet: DataFrame也可以叫DataSet[Row],每一行类型
阅读全文
摘要:||启动方式|访问端口| |--|--|--| |HDFS|start-dfs.sh|NameNode(9000 API操作;50070 web访问端口)| |||DataNode(50010 dn和nn通信的端口;50075(datanode的web访问端口)| |||snn(50090 snn的
阅读全文