大数据学习与分享 - 博客园

2022年4月15日

金三银四——大数据/Java面试集锦

摘要：金三银四，无论今年你有无跳槽计划，这篇文章集锦都值得你反复研读，建议收藏。高级大数据研发工程师面试题总结海量大数据处理面试题和思路总结大数据之数据仓库面试题一文概览数据仓库知识和面试数仓相关面试题经典的SparkSQL/Hive-SQL/MySQL面试-练习题一文掌握HBase核心知识阅读全文

posted @ 2022-04-15 17:50 大数据学习与分享阅读(318) 评论(0) 推荐(0)

2021年4月8日

基于Hive进行数仓建设的资源元数据信息统计：Spark篇

摘要：在数据仓库建设中，元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论，可以将元数据分为这三类阅读全文

posted @ 2021-04-08 11:39 大数据学习与分享阅读(1241) 评论(0) 推荐(0)

2021年4月6日

基于Hive进行数仓建设的资源元数据信息统计：Hive篇

摘要：在数据仓库建设中，元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论，可以将元数据分为这三类阅读全文

posted @ 2021-04-06 11:19 大数据学习与分享阅读(1631) 评论(0) 推荐(0)

2021年3月16日

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

摘要：如果你经常使用Spark SQL进行数据的处理分析，那么对笛卡尔积的危害性一定不陌生，比如大量占用集群资源导致其他任务无法正常执行，甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积，以及如何事前"预测"写的SQL会产生笛卡尔积从而避免呢阅读全文

posted @ 2021-03-16 11:30 大数据学习与分享阅读(2618) 评论(0) 推荐(1)

2021年3月12日

Spark SQL中Not in Subquery为何低效以及如何规避

摘要：虽然通过改写Not in Subquery的SQL，进行低效率的SQL到高效率的SQL过渡，能够避免上面所说的问题。但是这往往建立在我们发现任务执行慢甚至失败，然后排查任务中的SQL 阅读全文

posted @ 2021-03-12 09:28 大数据学习与分享阅读(1017) 评论(0) 推荐(0)

2021年3月3日

Kafka集群消息积压问题及处理策略

摘要：通常情况下，企业中会采取轮询或者随机的方式，通过Kafka的producer向Kafka集群生产数据，来尽可能保证Kafk分区之间的数据是均匀分布的。在分区数据均匀分布的前提下，如果阅读全文

posted @ 2021-03-03 09:00 大数据学习与分享阅读(8062) 评论(0) 推荐(0)

2021年2月26日

Hive实现自增序列及常见的Hive元数据问题处理

摘要：在利用数据仓库进行数据处理时，通常有这样一个业务场景，为一个Hive表新增一列自增字段（比如阅读全文

posted @ 2021-02-26 17:49 大数据学习与分享阅读(1157) 评论(0) 推荐(0)

2021年2月24日

Spark和Spring整合处理离线数据

摘要：如果你比较熟悉JavaWeb应用开发，那么对Spring框架一定不陌生，并且JavaWeb通常是基于SSM搭起的架构，主要用Java语言开发。但是开发Spark程序，Scala语言往往必不可少。众所周知阅读全文

posted @ 2021-02-24 17:56 大数据学习与分享阅读(1001) 评论(0) 推荐(0)

2021年2月22日

Spark在处理数据的时候，会将数据都加载到内存再做处理吗？

摘要：对于Spark的初学者，往往会有一个疑问：Spark（如SparkRDD、SparkSQL）在处理数据的时候，会将数据都加载到内存再做处理吗？阅读全文

posted @ 2021-02-22 09:07 大数据学习与分享阅读(815) 评论(0) 推荐(0)

2021年2月20日

Linux性能检测常用的10个基本命令

摘要：通过《Linux系统层面调优和常见的面试题》，笔者详细介绍了Linux系统层面常用的调优方法和常见的面试题。本篇文章将介绍常用的进行性能检测的Linux命令阅读全文

posted @ 2021-02-20 17:40 大数据学习与分享阅读(666) 评论(0) 推荐(3)