随笔分类 -  Spark系列

大数据风控系统概述
摘要:为什么要做风控系统 不做的话,会有以下风险: 各种小号、垃圾账号泛滥 撞库攻击、盗号、毁号、拖库等 拉新 10w 留存率不到 5% 百万营销费用,却增加不了用户粘性 投票票数差距非常悬殊 各种榜单被垃圾账号占领 实物奖励被机器人领走 红包被秒抢 下单不付款占库存 虚拟占座 刷单炒信 …… 风控场景 阅读全文

posted @ 2020-01-19 10:13 XIAO的博客 阅读(4247) 评论(0) 推荐(2) 编辑

Spark Streaming任务延迟监控及告警
摘要:概述 StreamingListener 是针对spark streaming的各个阶段的事件监听机制。 StreamingListener接口 自定义StreamingListener 功能:监控批次处理时间,若超过阈值则告警,每次告警间隔2分钟 应用 订阅关注微信公众号《大数据技术进阶》,及时获 阅读全文

posted @ 2019-11-01 14:42 XIAO的博客 阅读(2637) 评论(0) 推荐(0) 编辑

Spark开发常用参数
摘要:Driver spark.driver.cores driver端分配的核数,默认为1,thriftserver是启动thriftserver服务的机器,资源充足的话可以尽量给多。 spark.driver.memory driver端分配的内存数,默认为1g,同上。 spark.driver.ma 阅读全文

posted @ 2019-09-27 13:08 XIAO的博客 阅读(9125) 评论(0) 推荐(0) 编辑

解决spark dataframe get 报空指针异常 java.lang.NullPointerException
摘要:Spark 编程读取hive,hbase, 文本等外部数据生成dataframe后,一般我们都会map遍历get数据的每个字段,此时如果原始数据为null时,如果不进行判断直接转化为string,就会报空指针异常 java.lang.NullPointerException 示例代码如下: shel 阅读全文

posted @ 2019-09-20 18:38 XIAO的博客 阅读(5210) 评论(0) 推荐(0) 编辑

spark 2.x在windows环境使用idea本地调试启动了kerberos认证的hive
摘要:1 概述 开发调试spark程序时,因为要访问开启kerberos认证的hive/hbase/hdfs等组件,每次调试都需要打jar包,上传到服务器执行特别影响工作效率,所以调研了下如何在windows环境用idea直接跑spark任务的方法,本文旨在记录配置本地调试环境中遇到的问题及解决方案。 2 阅读全文

posted @ 2019-07-01 18:21 XIAO的博客 阅读(3651) 评论(0) 推荐(1) 编辑

spark log4j 日志配置
摘要:现在我们介绍spark (streaming) job独立配置的log4j的方法,通过查看官方文档,要为应用主程序(即driver端)或执行程序使(即executor端)自定义log4j配置,需要两步就完成了,下面具体说明。 第一步:上传自定义 log4j driver.properties和log 阅读全文

posted @ 2019-06-20 10:55 XIAO的博客 阅读(1241) 评论(0) 推荐(0) 编辑

Spark Streaming Listener 监控批次处理延迟进行告警
摘要:概述 StreamingListener 是针对spark streaming的各个阶段的事件监听机制。 StreamingListener接口 自定义StreamingListener 功能:监控批次处理时间,若超过阈值则告警,每次告警间隔2分钟 应用 阅读全文

posted @ 2019-05-21 16:24 XIAO的博客 阅读(1125) 评论(0) 推荐(0) 编辑

MapReduce Shuffle 和 Spark Shuffle 原理概述
摘要:Shuffle简介 Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。其在MapReduce中所处的工作阶段是 阅读全文

posted @ 2019-05-10 15:34 XIAO的博客 阅读(7142) 评论(0) 推荐(1) 编辑

Spark读HBase写MySQL
摘要:1 Spark读HBase Spark读HBase黑名单数据,过滤出当日新增userid,并与mysql黑名单表内userid去重后,写入mysql。 2 Spark读MySQL表广播出去 3 构建黑名单数据对象rdd 4 Spark写MySQL 5 注意问题 数据存入Mysql注意事项 尽量先设置 阅读全文

posted @ 2019-04-15 15:18 XIAO的博客 阅读(1021) 评论(0) 推荐(0) 编辑

spark on yarn运行产生jar包冲突问题
摘要:1.1 问题描述 Spark Streaming程序解析protobuf序列化的数据时, jars 来添加依赖的protobuf java 3.0.0.jar包,使用local模式程序正常,使用yarn模式时会报找不到方法的错误,如下所示: 1.2 解决方法 分析local模式能运行,yarn模式不 阅读全文

posted @ 2018-06-16 11:22 XIAO的博客 阅读(3440) 评论(0) 推荐(0) 编辑

【转载】Spark性能优化指南——高级篇
摘要:"前言" "数据倾斜调优" "调优概述" "数据倾斜发生时的现象" "数据倾斜发生的原理" "如何定位导致数据倾斜的代码" "查看导致数据倾斜的key的数据分布情况" "数据倾斜的解决方案" "解决方案一:使用Hive ETL预处理数据" "解决方案二:过滤少数导致倾斜的key" "解决方案三:提高 阅读全文

posted @ 2016-11-11 22:09 XIAO的博客 阅读(3369) 评论(0) 推荐(2) 编辑

【转载】 Spark性能优化指南——基础篇
摘要:转自:http://tech.meituan.com/spark tuning basic.html?from=timeline "前言" "开发调优" "调优概述" "原则一:避免创建重复的RDD" "原则二:尽可能复用同一个RDD" "原则三:对多次使用的RDD进行持久化" "原则四:尽量避免使 阅读全文

posted @ 2016-11-11 20:45 XIAO的博客 阅读(1159) 评论(0) 推荐(0) 编辑

Spark延长SparkContext初始化时间
摘要:有些应用中可能希望先在driver上运行一段java单机程序,然后再初始化SparkContext用集群模式操作java程序返回值。从而避免过早建立SparkContext对象分配集群资源,使资源长时间空闲。 这里涉及到两个yarn参数: Yarn会周期性遍历所有的ApplicationMaster 阅读全文

posted @ 2015-06-10 10:52 XIAO的博客 阅读(725) 评论(0) 推荐(0) 编辑

Spark读取HDFS文件,文件格式为GB2312,转换为UTF-8
摘要:package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apa... 阅读全文

posted @ 2015-02-09 11:52 XIAO的博客 阅读(3204) 评论(0) 推荐(0) 编辑

spark读hdfs文件实现wordcount并将结果存回hdfs
摘要:package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.a... 阅读全文

posted @ 2015-02-09 11:45 XIAO的博客 阅读(2781) 评论(0) 推荐(0) 编辑

spark streaming 实现接收网络传输数据进行WordCount功能
摘要:package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunctio... 阅读全文

posted @ 2015-02-09 11:42 XIAO的博客 阅读(853) 评论(0) 推荐(0) 编辑

spark mllib k-means算法实现
摘要:package iie.udps.example.spark.mllib; import java.util.regex.Pattern; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext;... 阅读全文

posted @ 2015-02-09 11:39 XIAO的博客 阅读(1034) 评论(0) 推荐(0) 编辑

spark+hcatalog操作hive表及其数据
摘要:package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.udps.common.hcatalog.SerHCatOutputFormat; import java.io.BufferedReader; import java.io.IOException... 阅读全文

posted @ 2014-12-24 11:21 XIAO的博客 阅读(1593) 评论(2) 推荐(0) 编辑

导航

统计

点击右上角即可分享
微信分享提示