关注我,每天一篇大数据开发面试文章,挺进大厂!2021年全套大数据面试题开始更新!

04 2019 档案

摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:54 王知无 阅读(930) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:54 王知无 阅读(3248) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:53 王知无 阅读(2314) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:52 王知无 阅读(1495) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:51 王知无 阅读(931) 评论(0) 推荐(0) 编辑
摘要:分布式缓存 Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnviron 阅读全文
posted @ 2019-04-27 19:50 王知无 阅读(3365) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:50 王知无 阅读(446) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:49 王知无 阅读(1153) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:48 王知无 阅读(2395) 评论(1) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:47 王知无 阅读(28030) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:45 王知无 阅读(1046) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:44 王知无 阅读(1758) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:43 王知无 阅读(4255) 评论(2) 推荐(0) 编辑
摘要:从RAID说起 大数据技术主要要解决的问题的是大规模数据的计算处理问题,那么首先要解决的就是大规模数据的存储问题。大规模数据存储要解决的核心问题有三个方面: 数据存储容量的问题,既然大数据要解决的是数以PB计的数据计算问题,而一般的服务器磁盘容量通常1-2TB,那么如何存储这么大规模的数据。 数据读 阅读全文
posted @ 2019-04-27 19:40 王知无 阅读(433) 评论(0) 推荐(0) 编辑
摘要:Hadoop解决大规模数据分布式计算的方案是MapReduce。MapReduce既是一个编程模型,又是一个计算框架。也就是说,开发人员必须基于MapReduce编程模型进行编程开发,然后将程序通过MapReduce计算框架分发到Hadoop集群中运行。我们先看一下作为编程模型的MapReduce。 阅读全文
posted @ 2019-04-27 19:39 王知无 阅读(351) 评论(0) 推荐(0) 编辑
摘要:1.过滤器 基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的任务。带有Fil 阅读全文
posted @ 2019-04-27 19:36 王知无 阅读(314) 评论(0) 推荐(0) 编辑
摘要:1.建表高级属性 建表过程中常用的shell命令 1.1 BLOOMFILTER 默认是 NONE 是否使用布隆过虑及使用何种方式,布隆过滤可以每列族单独启用 使用HColumnDescriptor.setBloomFilterType(NONE|ROW|ROWCOL)对列族单独启用布隆 - Def 阅读全文
posted @ 2019-04-27 19:35 王知无 阅读(492) 评论(0) 推荐(0) 编辑
摘要:1.系统架构 1.1 图解 从HBase的架构图上可以看出,HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HRegion、Store、MemStore、StoreFile、HFile、HLog等,每一个 RegionServer 就只有一个 HL 阅读全文
posted @ 2019-04-27 19:34 王知无 阅读(456) 评论(0) 推荐(0) 编辑
摘要:最近在学习HBase先关的知识,顺便做一下笔记,以加深知识的了解和掌握。 Hbase常用工具 文件检测修复工具 hbase hbck -help 常用选项: -details 显示所有region检查的完整报告 -summary 输出表和状态的总结信息 -metaonly 只检查-ROOT-和.ME 阅读全文
posted @ 2019-04-27 19:33 王知无 阅读(444) 评论(0) 推荐(0) 编辑
摘要:已经更新100+篇~ 关注公众号,BAT大神带你飞~ 听说你还在写Java,看Spring,看Dubbo,今天SpringCloud, 明天Dubbo3.X新版本... 10个开发9个半在写Java后台?框架层出不穷,天天学新东西怕被甩淘汰︿( ̄︶ ̄)︿ 本文旨在为普通程序员(Java程序员最佳)提 阅读全文
posted @ 2019-04-25 22:54 王知无 阅读(523) 评论(1) 推荐(1) 编辑
摘要:Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问。那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关。 Hive优化目标 在有限的资源下,执行效率更高 常见问题 数据倾斜 map数设置 reduce数设置 其 阅读全文
posted @ 2019-04-25 22:50 王知无 阅读(4025) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-24 23:09 王知无 阅读(1420) 评论(0) 推荐(0) 编辑
摘要:摘要: 实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,A 阅读全文
posted @ 2019-04-24 23:08 王知无 阅读(1965) 评论(0) 推荐(1) 编辑
摘要:摘要: Apache Flink 的命脉 "命脉" 即生命与血脉,常喻极为重要的事物。系列的首篇,首篇的首段不聊Apache Flink的历史,不聊Apache Flink的架构,不聊Apache Flink的功能特性,我们用一句话聊聊什么是 Apache Flink 的命脉?我的答案是:Apach 阅读全文
posted @ 2019-04-24 23:08 王知无 阅读(1219) 评论(0) 推荐(0) 编辑
摘要:你可能感兴趣的文章: Flink入门 Flink DataSet&DataSteam API Flink集群部署 Flink重启策略 Flink分布式缓存 Flink重启策略 Flink中的Time Flink中的窗口 Flink的时间戳和水印 Flink广播变量 Flink-Kafka-conne 阅读全文
posted @ 2019-04-24 23:04 王知无 阅读(399) 评论(0) 推荐(0) 编辑
摘要:Kafka 简介 Apache Kafka是一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开发,LinkedIn于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka用于构建实时数据管道和流式应用程序。它具有水平扩展性、容错性、极快的速度,目前也得到了广泛的应用。 K 阅读全文
posted @ 2019-04-24 23:04 王知无 阅读(409) 评论(0) 推荐(0) 编辑
摘要:什么是JOIN 在《Apache Flink 漫谈系列 - SQL概览》中我对JOIN算子有过简单的介绍,这里我们以具体实例的方式让大家对JOIN算子加深印象。JOIN的本质是分别从N(N>=1)张表中获取不同的字段,进而得到最完整的记录行。比如我们有一个查询需求:在学生表(学号,姓名,性别),课程 阅读全文
posted @ 2019-04-24 23:03 王知无 阅读(1867) 评论(0) 推荐(0) 编辑
摘要:您可能感兴趣的文章合集: Flink入门 Flink DataSet&DataSteam API Flink集群部署 Flink重启策略 Flink分布式缓存 Flink重启策略 Flink中的Time Flink中的窗口 Flink的时间戳和水印 Flink广播变量 Flink-Kafka-con 阅读全文
posted @ 2019-04-24 22:55 王知无 阅读(629) 评论(0) 推荐(0) 编辑
摘要:前言 在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之 阅读全文
posted @ 2019-04-24 22:54 王知无 阅读(25744) 评论(1) 推荐(1) 编辑
摘要:一、Hive的几种数据模型 内部表 (Table 将数据保存到Hive 自己的数据仓库目录中:/usr/hive/warehouse) 外部表 (External Table 相对于内部表,数据不在自己的数据仓库中,只保存数据的元信息) 分区表 (Partition Table将数据按照设定的条件分 阅读全文
posted @ 2019-04-24 22:51 王知无 阅读(1948) 评论(0) 推荐(1) 编辑
摘要:部署方式 一般来讲有三种方式: Local Standalone Flink On Yarn/Mesos/K8s… 单机模式 参考上一篇Flink从入门到放弃(入门篇2)-本地环境搭建&构建第一个Flink应用 Standalone模式部署 我们基于CentOS7虚拟机搭建一个3个节点的集群: 角色 阅读全文
posted @ 2019-04-21 21:27 王知无 阅读(13478) 评论(0) 推荐(0) 编辑
摘要:分布式缓存 Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。 此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnviro 阅读全文
posted @ 2019-04-21 21:27 王知无 阅读(197) 评论(0) 推荐(0) 编辑
摘要:戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-21 21:24 王知无 阅读(880) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示