摘要: 1. 环境 2.错误描述 在使用Sqoop抽取MySQL数据时,使用hdfs作为缓存,s3作为hive的存储地址,命令如下。 抽取到hdfs之后,需要distcp到s3,这时发生错误如下: FAILED Container [pid=3951,containerID=container_156774 阅读全文
posted @ 2019-09-24 10:24 ChouYarn 阅读(1272) 评论(0) 推荐(0) 编辑
摘要: 场景 k12在线教育公司的业务场景中,有一些业务场景需要实时统计和分析,如分析在线上课老师数量、学生数量,实时销售额,课堂崩溃率等,需要实时反应上课的质量问题,以便于对整个公司的业务情况有大致的了解。 方案对比 对比了很多解决方案,如下几种,列出来供参考。 设计方案 实时处理采用Flink SQL, 阅读全文
posted @ 2019-08-09 18:09 ChouYarn 阅读(7784) 评论(0) 推荐(0) 编辑
摘要: 背景 产品经理想要实时查询一些指标数据,在新版本的APP上线之后,我们APP的一些质量指标,比如课堂连接掉线率,课堂内崩溃率,APP崩溃率等指标,以此来看APP升级之后上课的体验是否有所提升,上课质量是否有所提高,为下一步的APP升级做准备。 客户端埋点 按照需求打点,如果想知道某一指标如进入教室成 阅读全文
posted @ 2019-08-07 17:15 ChouYarn 阅读(2111) 评论(1) 推荐(0) 编辑
摘要: 背景 某线上日志收集服务报警,打开域名报502错误码。 收集服务由2台netty HA服务器组成,netty服务器将客户端投递来的protobuf日志解析并发送到kafka,打开其中一个应用的日志,发现如下报错: 在排除了netty服务的错误之后,去查看kafka的日志。 发现报错,排查过程如下; 阅读全文
posted @ 2019-08-02 18:06 ChouYarn 阅读(18744) 评论(2) 推荐(0) 编辑
摘要: 1 系统概述 人物关系为代理模式,一级代理包含二级代理,二级代理包含三级代理。 需求为实时计算每个用户的订单金额,并取出金额的TOP100。 并实时计算当天下级人数。 单用户订单列表查询:查询订单表,不限定日期。 当天订单额top100:查询指标表对金额排序取前100,限定日期当天。 当天下级人数: 阅读全文
posted @ 2019-08-01 16:23 ChouYarn 阅读(1464) 评论(4) 推荐(1) 编辑
摘要: Druid0.15.0概述 Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时,Druid仍能够保持100%正常运行。创建Druid的最初意图主要是为了解决查询延迟 阅读全文
posted @ 2019-08-01 15:31 ChouYarn 阅读(2562) 评论(0) 推荐(0) 编辑
摘要: 1 安装python3.6 2 安装superset 3 配置superset 出现错误 ModuleNotFoundError: No module named 'MySQLdb',使用命令解决 阅读全文
posted @ 2019-08-01 10:21 ChouYarn 阅读(1253) 评论(0) 推荐(0) 编辑
摘要: 1."RichString.java".stripSuffix(".java") == "RichString" "http://my.url.com".stripPrefix("http://") == "my.url.com" 2.Scala中,访问修饰符可以通过使用限定词强调。格式为:priv 阅读全文
posted @ 2019-03-09 10:28 ChouYarn 阅读(1781) 评论(0) 推荐(0) 编辑
摘要: 一、概述 理解Hadoop的Shuffle过程是一个大数据工程师必须的,笔者自己将学习笔记记录下来,以便以后方便复习查看。 二、 MapReduce确保每个reducer的输入都是按键排序的。系统执行排序、将map输出作为输入传给reducer的过程称为Shuffle。 2.1 map端 map函数 阅读全文
posted @ 2018-10-17 17:47 ChouYarn 阅读(1743) 评论(0) 推荐(0) 编辑
摘要: 一、概述 上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章,将offset存储到Redis,既保证了并发也保证了数据不丢失,经过测试,有效。 二、使用场景 S 阅读全文
posted @ 2018-08-21 16:23 ChouYarn 阅读(4370) 评论(1) 推荐(1) 编辑