大数据程序员

2021年7月29日

摘要：阅读全文

posted @ 2021-07-29 10:20 大数据程序员阅读(172) 评论(0) 推荐(0)

2021年4月28日

摘要：一、数据来源数据中心项目中包含业务系统数据和用户行为日志数据。  业务数据即业务系统产生的业务数据，例如：系统中产生的订单、登录、点歌、广告展示等数据。 用户行为数据例如：用户在实体机器上操作的行为都是用户行为数据，点击、收藏、扫码等事件。二、项目架构数据中心项目是 Spark 综合的数仓阅读全文

posted @ 2021-04-28 09:22 大数据程序员阅读(1242) 评论(0) 推荐(1)

2021年4月21日

SparkSQL UDAF

摘要： SparkSQL UDAF : User Defined Aggregate Function -用户自定义聚合函数注意： 1).与聚合函数同时出现在Select后的字段，需要跟在 group by 后面 2).UDAF函数原理 package com.it.baizhan.scalacode.s 阅读全文

posted @ 2021-04-21 16:52 大数据程序员阅读(120) 评论(0) 推荐(0)

2021年4月20日

SparkStreaming 读取 Kafka中数据【SparkStreaming 2.3.1 + Kafka 0.11 Direct模式整合】

摘要： 1 package com.it.baizhan.scalacode.Streaming 2 3 import org.apache.kafka.clients.consumer.ConsumerRecord 4 import org.apache.kafka.common.serializatio 阅读全文

posted @ 2021-04-20 15:01 大数据程序员阅读(277) 评论(0) 推荐(0)

向 kafka 中生产数据

摘要： 1 package com.it.baizhan.scalacode.Streaming 2 3 import java.text.SimpleDateFormat 4 import java.util.{Date, Properties} 5 6 import org.apache.kafka.c 阅读全文

posted @ 2021-04-20 14:27 大数据程序员阅读(523) 评论(0) 推荐(0)

利用redis 来维护消费者偏移量

摘要： 1 package com.it.baizhan.scalacode.Streaming 2 3 import java.util 4 5 import org.apache.kafka.clients.consumer.ConsumerRecord 6 import org.apache.kafk 阅读全文

posted @ 2021-04-20 14:13 大数据程序员阅读(345) 评论(0) 推荐(0)

摘要：前言 DStream上的操作与RDD的类似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的操作，如：updateStateByKey()、transform()以及各种Window相关的操作。 1. Transformat 阅读全文

posted @ 2021-04-20 09:50 大数据程序员阅读(159) 评论(0) 推荐(0)

SparkStreaming--实时数据流处理

摘要： SparkStreaming 是流式处理框架，是 Spark API 的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume,Twitter, ZeroMQ 或者 TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduc 阅读全文

posted @ 2021-04-20 09:17 大数据程序员阅读(351) 评论(0) 推荐(0)

2021年4月19日

SparkStreaming 2.3.1 + Kafka 0.11 Direct模式整合

摘要： 1 package com.it.baizhan.scalacode.Streaming 2 3 import org.apache.kafka.clients.consumer.ConsumerRecord 4 import org.apache.kafka.common.serializatio 阅读全文

posted @ 2021-04-19 14:06 大数据程序员阅读(152) 评论(0) 推荐(0)

SparkStreaming程序--创建StreamingContext对象的方式

摘要：写SparkStreaming程序需要创建StreamingContext对象，创建StreamingContext对象有两种方式：①.val ssc = new StreamingContext(sc,Durations.Seconds(xxx))②.val ssc = new Streaming 阅读全文

posted @ 2021-04-19 14:02 大数据程序员阅读(782) 评论(0) 推荐(0)

大数据程序员

公告