06 2022 档案
摘要:dense_rank : 1 1 2 rank : 1 1 3 row_number: 1 2 3 sum( if(a>b,1,0) ) over() over() 指定聚合范围 select *,rank() over (partition by a order by b) rk where rk
阅读全文
摘要:行列转换 炸裂函数 开窗函数 模糊查询 MySQL中like模糊查询 like模糊查询,支持 % 和 _ 匹配 %:多个字符 _下划线:任意一个字符 示例: 查询名字中含有张的学生信息 select * from student where sname like ‘%张%’; 查询名字中第二个字未知
阅读全文
摘要:字节 职位职责:1、负责字节跳动大数据平台的权限、审计等安全产品规划与建设,包括态势感知、权限管理、隐私保护和访问控制等,满足安全监管需求;2、深入理解业务场景,与业务部门深度合作,设计架构并落地产品;3、追求**,探索数据安全治理的前沿方向,打造业内一流的数据治理产品体系;4、探索设计基于大数据、
阅读全文
摘要:一 安装 conda, 类似于 maven , 安装 sh 插件, 模块 wget -c https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh chmod 777 Miniconda3-latest-Linux-x
阅读全文
摘要:flink-conf.yaml 如下: jobmanager.rpc.address: hadoop106 --jobManager 的IP地址 jobmanager.rpc.port: 6123 --jobManager 的端口,默认为6123 jobmanager.heap.mb: 1024M
阅读全文
摘要:import pymysql as mysql con = mysql.connect(host="127.0.0.1",port=3306,user="root",passwd="root",db="aaa",charset="utf8") mycursor = con.cursor() prin
阅读全文
摘要:Flume面试题(约0.5w字) 介绍下Flume Flume架构 Flume有哪些Source 说下Flume事务机制 介绍下Flume采集数据的原理?底层实现? Flume如何保证数据的可靠性 Flume传输数据时如何保证数据一致性(可靠性) Flume拦截器 如何监控消费型Flume的消费情况
阅读全文
摘要:Hive面试题(约3.3w字) 说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么? Hive是Hadoop生态系统中比不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR
阅读全文
摘要:MapReduce部分 介绍下MapReduce MapReduce优缺点 MapReduce架构 MapReduce工作原理 MapReduce哪个阶段最费时间 MapReduce中的Combine是干嘛的?有什么好外? MapReduce为什么一定要有环型缓冲区 MapReduce为什么一定要有
阅读全文
摘要:Zookeeper面试题(约2.6w字) 介绍下Zookeeper是什么? Zookeeper有什么作用?优缺点?有什么应用场景? Zookeeper的选举策略,leader和follower的区别? 介绍下Zookeeper选举算法 Zookeeper的节点类型有哪些?分别作用是什么? Zooke
阅读全文
摘要:HDFS部分 HDFS文件写入和读取流程 HDFS组成架构 介绍下HDFS,说下HDFS优缺点,以及使用场景 HDFS作用 HDFS的容错机制 HDFS的存储机制 HDFS的副本机制 HDFS的常见数据格式,列式存储格式和行存储格式异同点,列式存储优点有哪些? HDFS如何保证数据不丢失? HDFS
阅读全文
摘要:数仓面试题(约3.6w字) 介绍下数据仓库 数仓的基本原理 数仓架构 数据仓库分层(层级划分),每层做什么?分层的好处? 数据分层是根据什么? 数仓分层的原则与思路 数仓建模常用模型吗?区别、优缺点? 星型模型和雪花模型的区别?应用场景?优劣对比 数仓建模有哪些方式? 数仓建模的流程? 维度建模的步
阅读全文
摘要:数据库面试题(约3.9w字) 数据库中的事务是什么,MySQL中是怎么实现的 MySQL事务的特性? 数据库事务的隔离级别?解决了什么问题?默认事务隔离级别? 脏读,幻读,不可重复读的定义 MySQL怎么实现可重复读? 数据库第三范式和第四范式区别? MySQL的存储引擎? 数据库有哪些锁? 说下悲
阅读全文
摘要:Flink面试题(约4.7w字) Flink架构 Flink的窗口了解哪些,都有什么区别,有哪几种?如何定义? Flink窗口函数,时间语义相关的问题 介绍下Flink的watermark(水位线),watermark需要实现哪个实现类,在何处定义?有什么作用? Flink的窗口(实现)机制 说下F
阅读全文
摘要:Spark面试题(约9.8w字) Spark的任务执行流程 Spark的运行流程 Spark的作业运行流程是怎么样的? Spark的特点 Spark源码中的任务调度 Spark作业调度 Spark的架构 Spark的使用场景 Spark on standalone模型、YARN架构模型(画架构图)
阅读全文
摘要:HBase面试题(约2.8w字) 介绍下HBase HBase是一个分布式的,面向列的开源数据库。它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数
阅读全文
摘要:Kafka面试题(约5.5w字) 介绍下Kafka,Kafka的作用?Kafka的组件?适用场景? Kafka是分布式发布-订阅消息系统, 它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分, Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。
阅读全文
摘要:YARN部分 介绍下YARN Yet Another Resource Negotiator,另一种资源协调者,是一种新的 Hadoop 资源管理器它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN有几个模块
阅读全文
摘要:Hadoop基础 介绍下Hadoop 分布式系统架构。开发分布式程序。利用集群的威力进行高速运算和存储。 Hadoop的特点 高可靠性 高效性 高可扩展性 高容错性 低成本 说下Hadoop生态圈组件及其作用 1,HDFS (分布式文件系统) 2,资源管理器(YARN 和 mesos) 3,mapr
阅读全文
摘要:bean //实体类 mysql的一条记录 package bean; import lombok.AllArgsConstructor; import lombok.Data; import lombok.NoArgsConstructor; @Data @AllArgsConstructor @
阅读全文
摘要::3306/aaa?useUnicode=true&characterEncoding=UTF-8 改数据库编码为 utf8: Alter database aaa character set utf8 collate utf8_general_ci; 改表编码为 utf8: Alter table
阅读全文
摘要:聚合 : A类的成员变量是B类,通过set方法赋值。 组合:A类在new对象的时候,会实例化一个B类的对象来使用。耦合性更强。
阅读全文
摘要:一、设计模式七大原则设计模式的目的 代码重用性 (即:相同功能的代码,不用多次编写)可读性 (即:编程规范性, 便于其他程序员的阅读和理解)可扩展性 (即:当需要增加新的功能时,非常的方便,称为可维护)可靠性 (即:当我们增加新的功能后,对原来的功能没有影响)使程序呈现高内聚,低耦合的特性 七大原则
阅读全文
摘要:问题描述: 某APP用户点击日志,列名分别为时间,用户ID,产品代号,点击的功能代号,邮箱,省市,耗时,参数详情。需使用flink批处理进行数据清洗及开窗统计,样例数据如下: data 说明: 数据的列分隔符为逗号,详情参数为json 数据行中存在脏数据 环境: 机器可联网,笔试机器的桌面上有ide
阅读全文
摘要:3-5 10000 100G 30-60 1000 80% 20% 90% 10% 10-20 100-200
阅读全文
摘要:数据开发 离线/实时指标开发 阿里云脚本一次全部调度的问题 数据不规范,数据清洗的问题
阅读全文
摘要:HDFS存入大量小文件,有什么影响? 元数据层面:每个小文件都有一份元数据,其中包括文件路径,文件名,所有者,所属组,权限,创建时间等,这些信息都保存在 Namenode 内存中(大的文件块和小的文件块都占用NameNode150字节的内存)。 所以小文件过多,会占用 Namenode 服务器大量内
阅读全文
摘要:# 定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1 # 描述和配置source组件:r1a1.sources.r1.type = execa1.sources.r1.command = tail -F /root/logs/t
阅读全文
摘要:整个 Hadoop MapReduce 的作业执行流程如图 1 所示,共分为 10 步。 图 1 Hadoop MapReduce的作业执行流程 1. 提交作业 客户端向 JobTracker 提交作业。首先,用户需要将所有应该配置的参数根据需求配置好。作业提交之后,就会进入自动化执行。在这个过程中
阅读全文
摘要:Hadoop MapReduce 的 Shuffle 阶段是指从 Map 的输出开始,包括系统执行排序,以及传送 Map 输出到 Reduce 作为输入的过程。排序阶段是指对 Map 端输出的 Key 进行排序的过程。不同的 Map 可能输出相同的 Key,相同的 Key 必须发送到同一个 Redu
阅读全文
摘要:drop table if exists `employees` ; drop table if exists `salaries` ;CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`fi
阅读全文
摘要:#SQL18 获取当前薪水第二多的员工的emp_no以及其对应的薪水salarydrop table if exists `employees` ; drop table if exists `salaries` ; CREATE TABLE `employees` (`emp_no` int(11
阅读全文
摘要:drop table if exists `dept_emp` ; drop table if exists `salaries` ; CREATE TABLE `dept_emp` (`emp_no` int(11) NOT NULL,`dept_no` char(4) NOT NULL,`fro
阅读全文
摘要:关系建模:遵循三范式 1.基本字段不可再分割 2.其他字段对主键完全依赖 3.其他字段间不存在传递依赖关系 维度建模:星型模型 雪花模型 星座模型 实体表 维度表(码表) 事实表 事实表的分类:事务型事实表 周期型快照事实表 累积型快照事实表 按数据同步分类: 全量表 增量表 同步新增及变化数据的表
阅读全文
摘要:dwd层除了数据清洗 cast(id as bigint)>0 and id is not 之外,维度退化的作用 将 三级分类 省市、区域 等小表提前 join 成 商品分类、地区表等 避免后期频繁join 影响查询效率
阅读全文
摘要:[root@hadoop106 ~]# vim /etc/hostnamehadoop106 vim /etc/sysconfig/network hostname=hadoop106vim /etc/hosts 47.100.210.196 hadoop106139.196.139.79 hado
阅读全文
摘要:授权 0.0.0.0/0 所有网络可以访问该端口
阅读全文
摘要:mkdir -p /root/bin cd bin vim xsyn #!/bin/bash #1. 判断参数个数 if [ $# -lt 1 ] then echo Not Enough Arguement! exit; fi #2. 遍历集群所有机器 这里注意是你自己的主机名 for host
阅读全文
摘要:调度器 Scheduler 类似于一个队列,不参与程序执行 AppMaster 作用:监视 Map Reduce 任务 如果挂掉,向调度器 Scheduler 重新申请 资源池 AppManager 作用:监视 AppMaster ,如果挂掉 重新开辟容器启动AM ,该过程中 MR 任务不中断 如何
阅读全文
摘要:解压安装包[root@hadoop106 install]# tar -zxvf apache-kylin-3.0.2-bin.tar.gz -C /opt/module 重命名[root@hadoop106 module]# mv apache-kylin-3.0.2-bin/ kylin 路径[
阅读全文
摘要:启动报错 Presto requires an Oracle or OpenJDK JVM (found Red Hat, Inc.)我一共装三台服务器,然后发现有一台JDK版本不一致,然后那台报错了。不报错的jdk版本: 报错的JDK版本:openjdk version “1.8.0_332” 我
阅读全文
摘要:例如:将/a/b/c 替换为 /abc 则应该如下表示: :%s/\/a\/b\/c/\/abc/
阅读全文
摘要:Hive on Spark配置 兼容性说明 注意:官网下载的 Hive3.1.2 和 Spark3.0.0 默认是不兼容的。 因为 Hive3.1.2 支持的 Spark 版本是2.4.5,所以需要我们重新编译Hive3.1.2版本。 编译步骤:官网下载Hive3.1.2源码,修改pom文件中引用的
阅读全文
摘要:原文:Hive3.1.2源码编译兼容Spark3.1.2 Hive on Spark - D-Arlin - 博客园 (cnblogs.com) 在使用hive3.1.2和spark3.1.2配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.1.2不兼容,hive
阅读全文
摘要:1、创建一个文件夹,用来放你要拉取的项目。 projects 2、然后在文件夹空白处右击,点击Gti Bash Here,进入终端。 3、打开终端后, 输入命令 “git clone 你的项目地址",项目地址可以直接复制下来。
阅读全文
摘要:(10条消息) hive的开窗函数_Climber_XL的博客-CSDN博客_hive 开窗 Function (arg1,..., argn) OVER ([PARTITION BY <...>] [ORDER BY <....>] [<window_expression>]) -- 聚合开窗函数
阅读全文
摘要:Map FlatMap groupBy filter sample 根据指定的规则从数据集中抽取数据 val dataRDD = sparkContext.makeRDD(List( 1,2,3,4),1)// 抽取数据不放回(伯努利算法)// 伯努利算法:又叫 0、1 分布。例如扔硬币,要么正面,
阅读全文
摘要:常见的三类范式 原文: 「数据库」常见的三类范式 (baidu.com) 想要弄明白常见的三类范式,需要先搞清楚几个基本概念。 1.概念 (1)范式:关系数据库中满足某一特定级别关系的集合。即:关系数据库中的关系是要需要满足一定要求的,满足不同的要求即为不同的范式。 (2)属性:对表格中的每一列人为
阅读全文