摘要: 序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试题-Hadoop(2022版) https://blog.csdn.net/qq_43061290/ 阅读全文
posted @ 2023-02-09 23:53 业余砖家 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 1. 简介 Apache Hudi(简称:Hudi)允许您在现有的hadoop兼容存储之上存储大量数据,同时提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。 这两种原语分别是: 1)Update/Delete记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Dele 阅读全文
posted @ 2023-02-09 23:44 业余砖家 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 1.HBase是什么? (1) HBase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。 (2) HBase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 (3) HBase为null的记录不会被存储。 阅读全文
posted @ 2023-02-09 23:30 业余砖家 阅读(90) 评论(0) 推荐(0) 编辑