摘要:
object Hive_ODS_PaidMember { private val logger = LoggerFactory.getLogger(Hive_ODS_PaidMember.getClass) val prop = new Properties() val is: InputStrea 阅读全文
摘要:
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch 阅读全文
摘要:
package movieratingimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Row, SparkSession}import org.apache.sp 阅读全文
摘要:
基本概念: 1、什么是kafka? Kafka是一个高吞吐量、分布式的发布订阅消息系统。据kafka官方网站介绍,当前的kafka已经定位为一个分布式流式处理平台( a distributed streaming platform),它最初由LinkedIn公司开发,后来成为Apache项目的一部分 阅读全文
摘要:
http://lxw1234.com/archives/2015/04/190.htm https://www.cnblogs.com/hd-zg/p/5947337.html 阅读全文
摘要:
package kafka; import org.apache.kafka.clients.producer.Callback; import org.apache.kafka.clients.producer.KafkaProducer; import org.apache.kafka.clients.producer.ProducerRecord; import org.apache.... 阅读全文
摘要:
1.启动zookeeper服务 ./bin/zookeeper-server-start.sh config/zookeeper.properties 2.开启kafka服务 .\bin\windows\kafka-server-start.bat .\config\server.propertie 阅读全文
摘要:
1.flink wordcount pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XM 阅读全文
摘要:
1.count(distinct xxx) 窗口函数 hive 2.x版本支持: count(distinct cust_num) over(partition by xxx order by xxx) -- 分组内去重求和 hive1.x版本不支持:改版 size(collect_set(cust 阅读全文
摘要:
1.数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写的 阅读全文