05 2019 档案
摘要:hadoop fs -rm -r -skipTrash /flumu //删除跳过垃圾回收站 导入数据到HDFS [kris@hadoop102 ~]$ hadoop fs -mkdir -p /user/hive/warehouse/ods.db/origin_user_behavior/2019
阅读全文
摘要:1. 概述 https://www.cnblogs.com/onepixel/p/7674659.html https://www.bilibili.com/video/av25136272 https://www.bilibili.com/video/av63851336 1.1 比较类排序 通过
阅读全文
摘要:1. 数据结构概述 数据结构的介绍 1) 数据结构是一门研究算法的学科,只从有了编程语言也就有了数据结构.学好数据结构可以编写出更加漂亮,更加有效率的代码。 2) 要学习好数据结构就要多多考虑如何将生活中遇到的问题,用程序去实现解决. 3) 程序 = 数据结构 + 算法 2. 数组 在大部分编程语言
阅读全文
摘要:HotNItems 拓展需求:实时统计双十一下单量,实时统计成交额,实时查看锅炉温度变化曲线,每个5分钟看一下过去一个小时温度变化曲线, 涉及到的技术点:sliding window、Watermark、event time 用到的算子或者说叫链式调用:keyby、timeWindow、aggreg
阅读全文
摘要:1. 复杂事件处理CEP 复杂事件处理(Complex Event Processing, CEP);(复杂的逻辑关系,谁前谁后, 可以通过自定义processing function,状态编程,设置定时器来实现,但是比较复杂) Flink CEP是在Flink中实现的复杂事件处理(CEP)库; C
阅读全文
摘要:Flink 流处理Api 1. Environment getExecutionEnvironment 创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用的,则此方法返回本地执行环境;如果从命令行客户端调用程序以提交到集群,则此方法返回此集群的执行环境,也就是说,getExecutio
阅读全文
摘要:1. 需求分析 离线T+1 需求 一般是根据前一日的数据生成报表等数据,虽然统计指标、报表繁多,但是对时效性不敏感。实时T+0 需求 主要侧重于对当日数据的实时监控,通常业务逻辑相对离线需求简单一下,统计指标也少一些,但是更注重数据的时效性,以及用户的交互性。 即席需求 临时需求,可用即席查询如Im
阅读全文
摘要:1. 日活DAU ① SparkStreaming消费kafka数据 Kafka作为数据来源,从kafka中获取日志,kafka中的日志类型有两种,启动和事件,统计日活,只获取启动日志即可。 1. 从Redis中获取Kafka分区偏移量(将偏移量存储到redis中 ,手动维护kafka偏移量 ) 2
阅读全文
摘要:1.canal数据采集 Canal是用java开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,Canal主要支持了MySQL的Binlog解析,解析完成后才利用Canal Client 用来处理获得的 相关数据。(数据库同步需要阿里的otter中间件,基于Canal) 同步mys
阅读全文
摘要:业务数据 需求分析:当日新增付费用户首单分析 按省份| 用户性别| 用户年龄段,统计当日新增付费用户首单平均消费及人数占比 无论是省份名称、用户性别、用户年龄,订单表中都没有这些字段,需要订单(事实表)和维度表(省份、用户)进行关联,形成宽表后将数据写入到ES,通过Kibana进行分析以及 图形展示
阅读全文
摘要:订单明细实付金额分摊以及交易额统计 需求分析 主订单的应付金额【origin_total_amount】一般是由所有订单明细的商品单价 * 数量汇总【sku_price * sku_num】组成。 但是由于优惠、运费等都是以订单为单位进行计算的,所以减掉优惠、加上运费会得到一个最终实付金额【fina
阅读全文
摘要:Git是目前世界上最先进的分布式版本控制系统。 创始人:Linus Torvalds林纳斯·托瓦兹 经典的集中管理型(CVS、VSS、SVN) 版本管理系统: 1、版本管理的服务器一旦崩溃,硬盘损坏,代码如何恢复? 2、程序员上传到服务器的代码要求是完整版本,但是程序员开发过程中想做小版本的管理,以
阅读全文
摘要:1. 定义 Nginx ("engine x") 是一个高性能的HTTP和反向代理服务器; 特点是占有内存少,并发能力强,事实上nginx的并发能力确实在同类型的网页服务器中表现较好,中国大陆使用nginx网站用户有:百度、京东、新浪、网易、腾讯、淘宝等。 Nginx 是由俄罗斯人 Igor Sys
阅读全文
摘要:SpringBoot 1. Spring Boot 约定大于配置 Spring Boot 是由 Pivotal 团队提供的全新框架,其设计目的是用来简化新 Spring 应用的初始搭建以及开发过程。 该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。有了springboot
阅读全文
摘要:1. 调度策略 TaskScheduler会先把DAGScheduler给过来的TaskSet封装成TaskSetManager扔到任务队列里,然后再从任务队列里按照一定的规则把它们取出来在SchedulerBackend给过来的Executor上运行。这个调度过程实际上还是比较粗粒度的,是面向Ta
阅读全文