09 2020 档案

摘要:架构选型 首先在架构上,Flink 采用了经典的主从模式,DataFlow Graph 与 Storm 形成的拓扑 Topology 结构类似,Flink 程序启动后,会根据用户的代码处理成 Stream Graph,然后优化成为 JobGraph,JobManager 会根据 JobGraph 生 阅读全文
posted @ 2020-09-21 13:54 Christbao 阅读(1671) 评论(0) 推荐(0) 编辑
摘要:一、数据倾斜 1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。 数据倾斜原理 目前我们所知道的大数据处理框架,比如 Flink、Spark、Hadoop 等之所以能处理高达千亿的数据,是因为这些框架都利用了分布式计算的思想,集群中多个计算节点并行,使得数据处理能力能 阅读全文
posted @ 2020-09-21 13:37 Christbao 阅读(4518) 评论(0) 推荐(0) 编辑
摘要:Flink 框架中支持事件时间、摄入时间和处理时间三种。而当我们在流式计算环境中数据从 Source 产生,再到转换和输出,这个过程由于网络和反压的原因会导致消息乱序。因此,需要有一个机制来解决这个问题,这个特别的机制就是“水印”。 Flink 的窗口和时间 根据窗口数据划分的不同,目前 Flink 阅读全文
posted @ 2020-09-21 11:37 Christbao 阅读(617) 评论(0) 推荐(0) 编辑
摘要:1:基于 Flink 的实时数据仓库是如何做的? 我们要从 Flink 的优势开始入手,介绍基于 Flink 的实时数仓建设的关键技术选型和整体设计。 传统的离线数据仓库将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL和其他建模后产出报表等应用。离线数据仓库主要是构建 T+1 的离线数据,通 阅读全文
posted @ 2020-09-21 11:26 Christbao 阅读(557) 评论(0) 推荐(0) 编辑
摘要:进阶篇主要包含了 Flink 中的数据传输、容错机制、序列化、数据热点、反压等实际生产环境中遇到的问题等考察点。这一阶段主要考察我们对 Flink 掌握的深度,也是留下好印象的关键环节。 1:请谈谈你对 Flink Table & SQL 的了解情况?以及 TableEnvironment 这个类有 阅读全文
posted @ 2020-09-21 11:18 Christbao 阅读(378) 评论(0) 推荐(0) 编辑
摘要:罗列Flink基础相关的题。 1:请介绍一下 Flink。 考察我们队 Flink 整体的掌握情况,我们应该从以下几个基本的概念入手。 Flink 是大数据领域的分布式实时和离线计算引擎,其程序的基础构建模块是流(Streams)和转换(Transformations),每一个数据流起始于一个或多个 阅读全文
posted @ 2020-09-21 11:10 Christbao 阅读(199) 评论(0) 推荐(0) 编辑
摘要:理解用户的各类行为,构建用户画像体系,帮助平台更加精准运营;在用户的各个维度上,利用数据挖掘、机器学习等技术分析建模,驱动营销、治理、评级等方向。 用户画像标签 一般用户画像标签分为统计类、规则类、机器学习挖掘类 统计类:用户性别、年龄、近7天活跃时长、消费记录 规则类:规则类与运营策略相关,标签形 阅读全文
posted @ 2020-09-19 22:46 Christbao 阅读(332) 评论(0) 推荐(0) 编辑
摘要:Table API 和 SQL 处于最顶端,是 Flink 提供的高级 API 操作。Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言. 一个完整的 Flink Table & SQL Job 也是由 Source、Tr 阅读全文
posted @ 2020-09-08 23:02 Christbao 阅读(527) 评论(0) 推荐(0) 编辑
摘要:面向数据时代的实时计算技术接踵而至。从我们最初认识的 Storm,再到 Spark 的异军突起,迅速占领了整个实时计算领域。Apache Flink 同时支持流式及批量分析应用,实现批流一体。 Flink 在实时数仓和实时 ETL 中有天然的优势: 状态管理,实时数仓里面会进行很多的聚合计算,这些都 阅读全文
posted @ 2020-09-07 23:01 Christbao 阅读(510) 评论(0) 推荐(0) 编辑
摘要:NLP 中文词向量,git地址:https://github.com/Embedding/Chinese-Word-Vectors 条件随机场,文章整理 BiLSTM + CRF 命名实体识别,文章地址 大数据 spark 的推荐系统特征工程;spark 调优;spark与flink 剖析 ;实时数 阅读全文
posted @ 2020-09-04 09:47 Christbao 阅读(206) 评论(0) 推荐(0) 编辑
摘要:argsparse是python的命令行解析的标准模块,内置于python,不需要安装。这个库可以让我们直接在命令行中就可以向程序中传入参数并让程序运行。 我们先在桌面新建“arg学习”的文件夹,在该文件夹中新建demo.py文件,来看一个最简单的argsparse库的使用的例子。 import a 阅读全文
posted @ 2020-09-03 17:10 Christbao 阅读(169) 评论(0) 推荐(0) 编辑
摘要:有一张用户签到表【t_user_attendence】,标记每天用户是否签到(说明:该表包含所有用户所有工作日的出勤记录) ,包含三个字段: 日期【fdate】;用户id【fuser_id】;用户当天是否签到【fis_sign_in:0否1是】 问题1:请计算截至当前每个用户已经连续签到的天数(输出 阅读全文
posted @ 2020-09-01 14:51 Christbao 阅读(260) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示