关注我,每天一篇大数据开发面试文章,挺进大厂!2021年全套大数据面试题开始更新!

随笔分类 -  Hadoop

摘要:前言 今年有个现象,实时数仓建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库的文章和方案。 但是对于实时数仓的狂热追求大可不必。 首先,在技术上几乎没有难点,基于强大的开源中间件实现实时数据仓库的需求已经变得没有那么困难。其次,实时数仓的建设一定是伴随着业务的发展而发展,武断 阅读全文
posted @ 2019-09-15 10:43 王知无 阅读(5954) 评论(2) 推荐(1) 编辑
摘要:在上一章节中,我们讲到实时数仓的建设,互联网大数据技术发展到今天,各个领域基本已经成熟,有各式各样的解决方案可以供我们选择。 在实时数仓建设中,解决方案成熟,消息队列Kafka、Redis、Hbase鲜有敌手,几乎已成垄断之势。而OLAP的选择则制约整个实时数仓的能力。开源盛世的今天,可以供我们选择 阅读全文
posted @ 2019-09-15 10:39 王知无 阅读(9437) 评论(0) 推荐(2) 编辑
摘要:关注我的公众号,后台回复【JAVAPDF】获取200页面试题! "5万人关注的大数据成神之路,不来了解一下吗?" "5万人关注的大数据成神之路,真的不来了解一下吗?" "5万人关注的大数据成神之路,确定真的不来了解一下吗?" 欢迎您关注 "《大数据成神之路》" 愿读到这篇文章的技术人早日明白并且脱离 阅读全文
posted @ 2019-09-13 16:33 王知无 阅读(714) 评论(1) 推荐(0) 编辑
摘要:【声明】本文由《大数据技术与架构》读者提供,未经授权不得转载。 "5万人关注的大数据成神之路,不来了解一下吗?" "5万人关注的大数据成神之路,真的不来了解一下吗?" "5万人关注的大数据成神之路,确定真的不来了解一下吗?" 腾讯 关键词【Java基础】【数据结构】【操作系统】 【算法】【数据库】【 阅读全文
posted @ 2019-09-13 16:18 王知无 阅读(332) 评论(0) 推荐(0) 编辑
摘要:声明:本文参考了淘宝/滴滴/美团发表的关于大数据平台建设的文章基础上予以整理。参考链接和作者在文末给出。 在此对三家公司的技术人员无私奉献精神表示感谢,如果文章造成了侵权行为,请联系本人删除。本人在尊重事实的基础上重新组织了语言和内容,旨在给读者揭开一个完善的大数据平台的组成和发展过程。 本文在未经 阅读全文
posted @ 2019-09-13 16:13 王知无 阅读(800) 评论(0) 推荐(0) 编辑
摘要:从RAID说起 大数据技术主要要解决的问题的是大规模数据的计算处理问题,那么首先要解决的就是大规模数据的存储问题。大规模数据存储要解决的核心问题有三个方面: 数据存储容量的问题,既然大数据要解决的是数以PB计的数据计算问题,而一般的服务器磁盘容量通常1-2TB,那么如何存储这么大规模的数据。 数据读 阅读全文
posted @ 2019-04-27 19:40 王知无 阅读(433) 评论(0) 推荐(0) 编辑
摘要:1.过滤器 基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的任务。带有Fil 阅读全文
posted @ 2019-04-27 19:36 王知无 阅读(314) 评论(0) 推荐(0) 编辑
摘要:1.系统架构 1.1 图解 从HBase的架构图上可以看出,HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HRegion、Store、MemStore、StoreFile、HFile、HLog等,每一个 RegionServer 就只有一个 HL 阅读全文
posted @ 2019-04-27 19:34 王知无 阅读(456) 评论(0) 推荐(0) 编辑
摘要:最近在学习HBase先关的知识,顺便做一下笔记,以加深知识的了解和掌握。 Hbase常用工具 文件检测修复工具 hbase hbck -help 常用选项: -details 显示所有region检查的完整报告 -summary 输出表和状态的总结信息 -metaonly 只检查-ROOT-和.ME 阅读全文
posted @ 2019-04-27 19:33 王知无 阅读(444) 评论(0) 推荐(0) 编辑
摘要:已经更新100+篇~ 关注公众号,BAT大神带你飞~ 听说你还在写Java,看Spring,看Dubbo,今天SpringCloud, 明天Dubbo3.X新版本... 10个开发9个半在写Java后台?框架层出不穷,天天学新东西怕被甩淘汰︿( ̄︶ ̄)︿ 本文旨在为普通程序员(Java程序员最佳)提 阅读全文
posted @ 2019-04-25 22:54 王知无 阅读(524) 评论(1) 推荐(1) 编辑
摘要:Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问。那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关。 Hive优化目标 在有限的资源下,执行效率更高 常见问题 数据倾斜 map数设置 reduce数设置 其 阅读全文
posted @ 2019-04-25 22:50 王知无 阅读(4025) 评论(0) 推荐(0) 编辑
摘要:一、Hive的几种数据模型 内部表 (Table 将数据保存到Hive 自己的数据仓库目录中:/usr/hive/warehouse) 外部表 (External Table 相对于内部表,数据不在自己的数据仓库中,只保存数据的元信息) 分区表 (Partition Table将数据按照设定的条件分 阅读全文
posted @ 2019-04-24 22:51 王知无 阅读(1948) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示