摘要: 本文目录如下所示: 目录 HFile在HBase架构中的位置 什么是HFile HFile逻辑结构 HFile逻辑结构的优点 HFile物理结构 HFile生成流程 HFile中Block块解析 多大的HFile文件才存在Intermiate Index Block HFile在HBase架构中的位 阅读全文
posted @ 2018-09-27 21:39 small_k 阅读(2491) 评论(0) 推荐(0) 编辑
摘要: 内容提要 一、写入流程 1. 初始化ZooKeeper Session,建立长连接,获取META Region的地址。 1. 获取rowkey对应的Region路由信息:来自.meta. 1. 写入region 如何快速定位rowkey所在的Region? rowkey=tableName+star 阅读全文
posted @ 2018-09-26 21:08 small_k 阅读(264) 评论(0) 推荐(0) 编辑
摘要: HBase客户端查询存在的问题 Scan 用Get/Scan查询数据, Filter 用Filter查询特定数据 以上情况只适合几千行数据以及不是很多的列的“小数据”。 当表扩展为亿万行及百万列时,在通过网络传递移动大量的数据导致网络拥堵,且客户端需要足够多内存来处理这么大量数据的计算操作,另外,客 阅读全文
posted @ 2018-09-14 19:32 small_k 阅读(6183) 评论(0) 推荐(0) 编辑
摘要: rowkey设计的重要性 rowkeys是HBase表设计中唯一重要的一点。 rowkey设计要求 唯一性 存储特性 按照字典顺序排序存储 查询特性 由于其存储特性导致查询特性: 查询单个记录; 查定一定范围的记录。 可能存在的问题 热点问题 热点问题如何解决 通过多个分区来分散读写压力。 另外一次 阅读全文
posted @ 2018-09-08 22:08 small_k 阅读(508) 评论(0) 推荐(0) 编辑
摘要: 大数据简介 -从BI到大数据 BI 什么是BI BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。 应用范围: 商业智能系统可辅助建立信息中心,如产生各种工作报 阅读全文
posted @ 2018-09-03 10:57 small_k 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 前置知识 spark任务模型 1. job:action的调用,触发了DAG的提交和整个job的执行。 2. stage:stage是由是否shuffle来划分,如果发生shuffle,则分为2个stage。 3. taskSet:每一个stage对应1个taskset.1个taskset有多个ta 阅读全文
posted @ 2018-05-02 21:40 small_k 阅读(387) 评论(0) 推荐(0) 编辑
摘要: spark数据倾斜处理 危害: 1. 当出现数据倾斜时,小量任务耗时远高于其它任务,从而使得整体耗时过大,未能充分发挥分布式系统的并行计算优势。 2. 当发生数据倾斜时,部分任务处理的数据量过大,可能造成内存不足使得任务失败,并进而引进整个应用失败。 表现:同一个stage的多个task执行时间不一 阅读全文
posted @ 2018-05-02 19:37 small_k 阅读(3184) 评论(0) 推荐(0) 编辑
摘要: sparkstreaming关于偏移量的管理 1. 在 Direct DStream初始化的时候,需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据。 offsets就是步骤4中所保存的offsets位置 2. 读取并处理消息 3. 处理完之后 阅读全文
posted @ 2018-04-22 22:08 small_k 阅读(16078) 评论(1) 推荐(0) 编辑
摘要: 背景 用户需求:近期数据查询速度快,较远历史数据运行查询速度慢? 对于开发人员而言即数据的冷热分离,实现此功能有2个前提条件: 1. 硬件:处理速度不同的硬件,最起码有读写速度不同的硬盘,如SSD、机械硬盘HDD。 2. 软件配置:可以配置 不同的数据存储在不同的硬盘,如近期数据存储在SSD,较远历 阅读全文
posted @ 2018-04-18 10:20 small_k 阅读(3675) 评论(0) 推荐(0) 编辑
摘要: hdfs如何让某些数据查询快,某些数据查询慢? hdfs冷热数据分层存储 本质: 不同路径制定不同的存储策略。 hdfs存储策略 hdfs的存储策略 依赖于底层的存储介质。 hdfs支持的存储介质: 1. ARCHIVE:高存储密度但耗电较少的存储介质,例如磁带,通常用来存储冷数据 2. DISK: 阅读全文
posted @ 2018-04-15 15:58 small_k 阅读(6771) 评论(0) 推荐(0) 编辑