Spark系列 - 随笔分类 - XIAO的博客

大数据风控系统概述

摘要：为什么要做风控系统不做的话，会有以下风险：各种小号、垃圾账号泛滥撞库攻击、盗号、毁号、拖库等拉新 10w 留存率不到 5% 百万营销费用，却增加不了用户粘性投票票数差距非常悬殊各种榜单被垃圾账号占领实物奖励被机器人领走红包被秒抢下单不付款占库存虚拟占座刷单炒信 …… 风控场景阅读全文

posted @ 2020-01-19 10:13 XIAO的博客阅读(4414) 评论(0) 推荐(2)

Spark Streaming任务延迟监控及告警

摘要：概述 StreamingListener 是针对spark streaming的各个阶段的事件监听机制。 StreamingListener接口自定义StreamingListener 功能：监控批次处理时间，若超过阈值则告警，每次告警间隔2分钟应用订阅关注微信公众号《大数据技术进阶》，及时获阅读全文

posted @ 2019-11-01 14:42 XIAO的博客阅读(2691) 评论(0) 推荐(0)

Spark开发常用参数

摘要：Driver spark.driver.cores driver端分配的核数，默认为1，thriftserver是启动thriftserver服务的机器，资源充足的话可以尽量给多。 spark.driver.memory driver端分配的内存数，默认为1g，同上。 spark.driver.ma 阅读全文

posted @ 2019-09-27 13:08 XIAO的博客阅读(9722) 评论(0) 推荐(0)

解决spark dataframe get 报空指针异常 java.lang.NullPointerException

摘要：Spark 编程读取hive，hbase, 文本等外部数据生成dataframe后，一般我们都会map遍历get数据的每个字段,此时如果原始数据为null时，如果不进行判断直接转化为string，就会报空指针异常 java.lang.NullPointerException 示例代码如下： shel 阅读全文

posted @ 2019-09-20 18:38 XIAO的博客阅读(5295) 评论(0) 推荐(0)

spark 2.x在windows环境使用idea本地调试启动了kerberos认证的hive

摘要：1 概述开发调试spark程序时，因为要访问开启kerberos认证的hive/hbase/hdfs等组件，每次调试都需要打jar包，上传到服务器执行特别影响工作效率，所以调研了下如何在windows环境用idea直接跑spark任务的方法，本文旨在记录配置本地调试环境中遇到的问题及解决方案。 2 阅读全文

posted @ 2019-07-01 18:21 XIAO的博客阅读(3767) 评论(0) 推荐(1)

spark log4j 日志配置

摘要：现在我们介绍spark (streaming) job独立配置的log4j的方法，通过查看官方文档，要为应用主程序（即driver端）或执行程序使（即executor端）自定义log4j配置，需要两步就完成了，下面具体说明。第一步：上传自定义 log4j driver.properties和log 阅读全文

posted @ 2019-06-20 10:55 XIAO的博客阅读(1297) 评论(0) 推荐(0)

Spark Streaming Listener 监控批次处理延迟进行告警

摘要：概述 StreamingListener 是针对spark streaming的各个阶段的事件监听机制。 StreamingListener接口自定义StreamingListener 功能：监控批次处理时间，若超过阈值则告警，每次告警间隔2分钟应用阅读全文

posted @ 2019-05-21 16:24 XIAO的博客阅读(1148) 评论(0) 推荐(0)

MapReduce Shuffle 和 Spark Shuffle 原理概述

摘要：Shuffle简介 Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是阅读全文

posted @ 2019-05-10 15:34 XIAO的博客阅读(7534) 评论(0) 推荐(1)

Spark读HBase写MySQL

摘要：1 Spark读HBase Spark读HBase黑名单数据，过滤出当日新增userid，并与mysql黑名单表内userid去重后，写入mysql。 2 Spark读MySQL表广播出去 3 构建黑名单数据对象rdd 4 Spark写MySQL 5 注意问题数据存入Mysql注意事项尽量先设置阅读全文

posted @ 2019-04-15 15:18 XIAO的博客阅读(1039) 评论(0) 推荐(0)

spark on yarn运行产生jar包冲突问题

摘要：1.1 问题描述 Spark Streaming程序解析protobuf序列化的数据时， jars 来添加依赖的protobuf java 3.0.0.jar包，使用local模式程序正常，使用yarn模式时会报找不到方法的错误，如下所示： 1.2 解决方法分析local模式能运行，yarn模式不阅读全文

posted @ 2018-06-16 11:22 XIAO的博客阅读(3538) 评论(0) 推荐(0)

【转载】Spark性能优化指南——高级篇

摘要："前言" "数据倾斜调优" "调优概述" "数据倾斜发生时的现象" "数据倾斜发生的原理" "如何定位导致数据倾斜的代码" "查看导致数据倾斜的key的数据分布情况" "数据倾斜的解决方案" "解决方案一：使用Hive ETL预处理数据" "解决方案二：过滤少数导致倾斜的key" "解决方案三：提高阅读全文

posted @ 2016-11-11 22:09 XIAO的博客阅读(3493) 评论(0) 推荐(2)

【转载】 Spark性能优化指南——基础篇

摘要：转自：http://tech.meituan.com/spark tuning basic.html?from=timeline "前言" "开发调优" "调优概述" "原则一：避免创建重复的RDD" "原则二：尽可能复用同一个RDD" "原则三：对多次使用的RDD进行持久化" "原则四：尽量避免使阅读全文

posted @ 2016-11-11 20:45 XIAO的博客阅读(1182) 评论(0) 推荐(0)

Spark延长SparkContext初始化时间

摘要：有些应用中可能希望先在driver上运行一段java单机程序，然后再初始化SparkContext用集群模式操作java程序返回值。从而避免过早建立SparkContext对象分配集群资源，使资源长时间空闲。这里涉及到两个yarn参数： Yarn会周期性遍历所有的ApplicationMaster 阅读全文

posted @ 2015-06-10 10:52 XIAO的博客阅读(760) 评论(0) 推荐(0)

Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8

摘要：package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apa... 阅读全文

posted @ 2015-02-09 11:52 XIAO的博客阅读(3221) 评论(0) 推荐(0)

spark读hdfs文件实现wordcount并将结果存回hdfs

摘要：package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.a... 阅读全文

posted @ 2015-02-09 11:45 XIAO的博客阅读(2810) 评论(0) 推荐(0)

spark streaming 实现接收网络传输数据进行WordCount功能

摘要：package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunctio... 阅读全文

posted @ 2015-02-09 11:42 XIAO的博客阅读(865) 评论(0) 推荐(0)

spark mllib k-means算法实现

摘要：package iie.udps.example.spark.mllib; import java.util.regex.Pattern; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext;... 阅读全文

posted @ 2015-02-09 11:39 XIAO的博客阅读(1049) 评论(0) 推荐(0)

spark+hcatalog操作hive表及其数据

摘要：package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.udps.common.hcatalog.SerHCatOutputFormat; import java.io.BufferedReader; import java.io.IOException... 阅读全文

posted @ 2014-12-24 11:21 XIAO的博客阅读(1615) 评论(2) 推荐(0)

XIAO的博客

随笔分类 - Spark系列