摘要:为什么要做风控系统 不做的话,会有以下风险: 各种小号、垃圾账号泛滥 撞库攻击、盗号、毁号、拖库等 拉新 10w 留存率不到 5% 百万营销费用,却增加不了用户粘性 投票票数差距非常悬殊 各种榜单被垃圾账号占领 实物奖励被机器人领走 红包被秒抢 下单不付款占库存 虚拟占座 刷单炒信 …… 风控场景
阅读全文
摘要:概述 StreamingListener 是针对spark streaming的各个阶段的事件监听机制。 StreamingListener接口 自定义StreamingListener 功能:监控批次处理时间,若超过阈值则告警,每次告警间隔2分钟 应用 订阅关注微信公众号《大数据技术进阶》,及时获
阅读全文
摘要:Driver spark.driver.cores driver端分配的核数,默认为1,thriftserver是启动thriftserver服务的机器,资源充足的话可以尽量给多。 spark.driver.memory driver端分配的内存数,默认为1g,同上。 spark.driver.ma
阅读全文
摘要:Spark 编程读取hive,hbase, 文本等外部数据生成dataframe后,一般我们都会map遍历get数据的每个字段,此时如果原始数据为null时,如果不进行判断直接转化为string,就会报空指针异常 java.lang.NullPointerException 示例代码如下: shel
阅读全文
摘要:1 概述 开发调试spark程序时,因为要访问开启kerberos认证的hive/hbase/hdfs等组件,每次调试都需要打jar包,上传到服务器执行特别影响工作效率,所以调研了下如何在windows环境用idea直接跑spark任务的方法,本文旨在记录配置本地调试环境中遇到的问题及解决方案。 2
阅读全文
摘要:现在我们介绍spark (streaming) job独立配置的log4j的方法,通过查看官方文档,要为应用主程序(即driver端)或执行程序使(即executor端)自定义log4j配置,需要两步就完成了,下面具体说明。 第一步:上传自定义 log4j driver.properties和log
阅读全文
摘要:概述 StreamingListener 是针对spark streaming的各个阶段的事件监听机制。 StreamingListener接口 自定义StreamingListener 功能:监控批次处理时间,若超过阈值则告警,每次告警间隔2分钟 应用
阅读全文
摘要:Shuffle简介 Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。其在MapReduce中所处的工作阶段是
阅读全文
摘要:1 Spark读HBase Spark读HBase黑名单数据,过滤出当日新增userid,并与mysql黑名单表内userid去重后,写入mysql。 2 Spark读MySQL表广播出去 3 构建黑名单数据对象rdd 4 Spark写MySQL 5 注意问题 数据存入Mysql注意事项 尽量先设置
阅读全文
摘要:1.1 问题描述 Spark Streaming程序解析protobuf序列化的数据时, jars 来添加依赖的protobuf java 3.0.0.jar包,使用local模式程序正常,使用yarn模式时会报找不到方法的错误,如下所示: 1.2 解决方法 分析local模式能运行,yarn模式不
阅读全文
摘要:"前言" "数据倾斜调优" "调优概述" "数据倾斜发生时的现象" "数据倾斜发生的原理" "如何定位导致数据倾斜的代码" "查看导致数据倾斜的key的数据分布情况" "数据倾斜的解决方案" "解决方案一:使用Hive ETL预处理数据" "解决方案二:过滤少数导致倾斜的key" "解决方案三:提高
阅读全文
摘要:转自:http://tech.meituan.com/spark tuning basic.html?from=timeline "前言" "开发调优" "调优概述" "原则一:避免创建重复的RDD" "原则二:尽可能复用同一个RDD" "原则三:对多次使用的RDD进行持久化" "原则四:尽量避免使
阅读全文
摘要:有些应用中可能希望先在driver上运行一段java单机程序,然后再初始化SparkContext用集群模式操作java程序返回值。从而避免过早建立SparkContext对象分配集群资源,使资源长时间空闲。 这里涉及到两个yarn参数: Yarn会周期性遍历所有的ApplicationMaster
阅读全文
摘要:package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apa...
阅读全文
摘要:package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.a...
阅读全文
摘要:package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunctio...
阅读全文
摘要:package iie.udps.example.spark.mllib; import java.util.regex.Pattern; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext;...
阅读全文
摘要:package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.udps.common.hcatalog.SerHCatOutputFormat; import java.io.BufferedReader; import java.io.IOException...
阅读全文