摘要: 金三银四,无论今年你有无跳槽计划,这篇文章集锦都值得你反复研读,建议收藏。 高级大数据研发工程师面试题总结 海量大数据处理面试题和思路总结 大数据之数据仓库面试题 一文概览数据仓库知识和面试 数仓相关面试题 经典的SparkSQL/Hive-SQL/MySQL面试-练习题 一文掌握HBase核心知识 阅读全文
posted @ 2022-04-15 17:50 大数据学习与分享 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类 阅读全文
posted @ 2021-04-08 11:39 大数据学习与分享 阅读(1106) 评论(0) 推荐(0) 编辑
摘要: 在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类 阅读全文
posted @ 2021-04-06 11:19 大数据学习与分享 阅读(1491) 评论(0) 推荐(0) 编辑
摘要: 如果你经常使用Spark SQL进行数据的处理分析,那么对笛卡尔积的危害性一定不陌生,比如大量占用集群资源导致其他任务无法正常执行,甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免呢 阅读全文
posted @ 2021-03-16 11:30 大数据学习与分享 阅读(2340) 评论(0) 推荐(1) 编辑
摘要: 虽然通过改写Not in Subquery的SQL,进行低效率的SQL到高效率的SQL过渡,能够避免上面所说的问题。但是这往往建立在我们发现任务执行慢甚至失败,然后排查任务中的SQL 阅读全文
posted @ 2021-03-12 09:28 大数据学习与分享 阅读(837) 评论(0) 推荐(0) 编辑
摘要: 通常情况下,企业中会采取轮询或者随机的方式,通过Kafka的producer向Kafka集群生产数据,来尽可能保证Kafk分区之间的数据是均匀分布的。在分区数据均匀分布的前提下,如果 阅读全文
posted @ 2021-03-03 09:00 大数据学习与分享 阅读(7899) 评论(0) 推荐(0) 编辑
摘要: 在利用数据仓库进行数据处理时,通常有这样一个业务场景,为一个Hive表新增一列自增字段(比如 阅读全文
posted @ 2021-02-26 17:49 大数据学习与分享 阅读(1021) 评论(0) 推荐(0) 编辑
摘要: 如果你比较熟悉JavaWeb应用开发,那么对Spring框架一定不陌生,并且JavaWeb通常是基于SSM搭起的架构,主要用Java语言开发。但是开发Spark程序,Scala语言往往必不可少。众所周知 阅读全文
posted @ 2021-02-24 17:56 大数据学习与分享 阅读(926) 评论(0) 推荐(0) 编辑
摘要: 对于Spark的初学者,往往会有一个疑问:Spark(如SparkRDD、SparkSQL)在处理数据的时候,会将数据都加载到内存再做处理吗? 阅读全文
posted @ 2021-02-22 09:07 大数据学习与分享 阅读(719) 评论(0) 推荐(0) 编辑
摘要: 通过《Linux系统层面调优和常见的面试题》,笔者详细介绍了Linux系统层面常用的调优方法和常见的面试题。本篇文章将介绍常用的进行性能检测的Linux命令 阅读全文
posted @ 2021-02-20 17:40 大数据学习与分享 阅读(620) 评论(0) 推荐(3) 编辑