关注我,每天一篇大数据开发面试文章,挺进大厂!2021年全套大数据面试题开始更新!
上一页 1 ··· 3 4 5 6 7 8 9 下一页
摘要: 戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-27 19:43 王知无 阅读(4251) 评论(2) 推荐(0) 编辑
摘要: 从RAID说起 大数据技术主要要解决的问题的是大规模数据的计算处理问题,那么首先要解决的就是大规模数据的存储问题。大规模数据存储要解决的核心问题有三个方面: 数据存储容量的问题,既然大数据要解决的是数以PB计的数据计算问题,而一般的服务器磁盘容量通常1-2TB,那么如何存储这么大规模的数据。 数据读 阅读全文
posted @ 2019-04-27 19:40 王知无 阅读(426) 评论(0) 推荐(0) 编辑
摘要: Hadoop解决大规模数据分布式计算的方案是MapReduce。MapReduce既是一个编程模型,又是一个计算框架。也就是说,开发人员必须基于MapReduce编程模型进行编程开发,然后将程序通过MapReduce计算框架分发到Hadoop集群中运行。我们先看一下作为编程模型的MapReduce。 阅读全文
posted @ 2019-04-27 19:39 王知无 阅读(343) 评论(0) 推荐(0) 编辑
摘要: 1.过滤器 基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的任务。带有Fil 阅读全文
posted @ 2019-04-27 19:36 王知无 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 1.建表高级属性 建表过程中常用的shell命令 1.1 BLOOMFILTER 默认是 NONE 是否使用布隆过虑及使用何种方式,布隆过滤可以每列族单独启用 使用HColumnDescriptor.setBloomFilterType(NONE|ROW|ROWCOL)对列族单独启用布隆 - Def 阅读全文
posted @ 2019-04-27 19:35 王知无 阅读(486) 评论(0) 推荐(0) 编辑
摘要: 1.系统架构 1.1 图解 从HBase的架构图上可以看出,HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HRegion、Store、MemStore、StoreFile、HFile、HLog等,每一个 RegionServer 就只有一个 HL 阅读全文
posted @ 2019-04-27 19:34 王知无 阅读(448) 评论(0) 推荐(0) 编辑
摘要: 最近在学习HBase先关的知识,顺便做一下笔记,以加深知识的了解和掌握。 Hbase常用工具 文件检测修复工具 hbase hbck -help 常用选项: -details 显示所有region检查的完整报告 -summary 输出表和状态的总结信息 -metaonly 只检查-ROOT-和.ME 阅读全文
posted @ 2019-04-27 19:33 王知无 阅读(444) 评论(0) 推荐(0) 编辑
摘要: 已经更新100+篇~ 关注公众号,BAT大神带你飞~ 听说你还在写Java,看Spring,看Dubbo,今天SpringCloud, 明天Dubbo3.X新版本... 10个开发9个半在写Java后台?框架层出不穷,天天学新东西怕被甩淘汰︿( ̄︶ ̄)︿ 本文旨在为普通程序员(Java程序员最佳)提 阅读全文
posted @ 2019-04-25 22:54 王知无 阅读(523) 评论(1) 推荐(1) 编辑
摘要: Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问。那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关。 Hive优化目标 在有限的资源下,执行效率更高 常见问题 数据倾斜 map数设置 reduce数设置 其 阅读全文
posted @ 2019-04-25 22:50 王知无 阅读(4020) 评论(0) 推荐(0) 编辑
摘要: 戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTa 阅读全文
posted @ 2019-04-24 23:09 王知无 阅读(1413) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 下一页