摘要:
金三银四,无论今年你有无跳槽计划,这篇文章集锦都值得你反复研读,建议收藏。 高级大数据研发工程师面试题总结 海量大数据处理面试题和思路总结 大数据之数据仓库面试题 一文概览数据仓库知识和面试 数仓相关面试题 经典的SparkSQL/Hive-SQL/MySQL面试-练习题 一文掌握HBase核心知识 阅读全文
摘要:
在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类 阅读全文
摘要:
在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类 阅读全文
摘要:
如果你经常使用Spark SQL进行数据的处理分析,那么对笛卡尔积的危害性一定不陌生,比如大量占用集群资源导致其他任务无法正常执行,甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免呢 阅读全文
摘要:
虽然通过改写Not in Subquery的SQL,进行低效率的SQL到高效率的SQL过渡,能够避免上面所说的问题。但是这往往建立在我们发现任务执行慢甚至失败,然后排查任务中的SQL 阅读全文
摘要:
通常情况下,企业中会采取轮询或者随机的方式,通过Kafka的producer向Kafka集群生产数据,来尽可能保证Kafk分区之间的数据是均匀分布的。在分区数据均匀分布的前提下,如果 阅读全文
摘要:
在利用数据仓库进行数据处理时,通常有这样一个业务场景,为一个Hive表新增一列自增字段(比如 阅读全文
摘要:
如果你比较熟悉JavaWeb应用开发,那么对Spring框架一定不陌生,并且JavaWeb通常是基于SSM搭起的架构,主要用Java语言开发。但是开发Spark程序,Scala语言往往必不可少。众所周知 阅读全文
摘要:
对于Spark的初学者,往往会有一个疑问:Spark(如SparkRDD、SparkSQL)在处理数据的时候,会将数据都加载到内存再做处理吗? 阅读全文
摘要:
通过《Linux系统层面调优和常见的面试题》,笔者详细介绍了Linux系统层面常用的调优方法和常见的面试题。本篇文章将介绍常用的进行性能检测的Linux命令 阅读全文