摘要:
大数据平台的建设之路漫长、艰难,所以需要统一认知,达成一致的建设思想和目标;进行心理建设,让大家做好充分的心理准备;充分认识平台的特点,有正确的的产品和服务意识。 1. 初心、源动力 大家以前从事web开发或者学习web开发,使用的技术栈是servlet+jsp+tomcat,现在流行springb 阅读全文
摘要:
0. AI为什么需要知识图谱? 人工智能分为三个阶段,从机器智能到感知智能,再到认知智能。 机器智能更多强调这些机器的运算的能力,大规模的集群的处理能力,GPU的处理的能力。 在这个基础之上会有感知智能,感知智能就是语音识别、图像识别,从图片里面识别出一个猫,识别人脸,是感知智能。感知智能并非人类所 阅读全文
摘要:
0 引言 和其他数据库一样,优化IO也是HBase提升性能的不二法宝,而提供缓存更是优化的重中之重。 根据二八法则,80%的业务请求都集中在20%的热点数据上,因此将这部分数据缓存起就可以极大地提升系统性能。 HBase在实现中提供了两种缓存结构:MemStore和BlockCache。其中MemS 阅读全文
摘要:
知识图谱应用如图所示,目前各大互联网公司已落地多个知识图谱产品,或者正在积极构建知识图谱,图谱技术成为“兵家必争”之地。 1. 什么是知识图谱? 知识图谱(Knowledge Graph)的概念由谷 歌 2012 年正式提出,旨在实现更智能的搜索引擎,并且于 2013 年以后开始在学术界和业界普及, 阅读全文
摘要:
hbase基本存储组织结构与数据读取组织结构对比 Segment是Hbase2.0的概念,MemStore由一个可写的Segment,以及一个或多个不可写的Segments构成。故hbase 1. 版本中的MemstoreScanner变成了SegmentScanner。 对应关系表 Hbase存储 阅读全文
摘要:
笔者从一开始接触hbase就在思考rowkey设计,希望rowkey设计得好,能够支持查询的需求。使用hbase一段时间后,再去总结一些hbase的设计方法,无外乎以下几种: reverse salt hash 本质上都是避免热点问题。那么如何根据查询场景设计rowkey?rowkey设计之道是什么 阅读全文
摘要:
笔者早期从事数据开发时,使用spark开发一段时间,感觉大数据开发差不多学到头了,该会的似乎都会了。在后来的实践过程中,发现很多事情需要站在更高的视角来看问题,不然很容易陷入“不识庐山真面目”的境界。最近在思考数据资产管理平台的建设,进行血缘分析开发,有如下感悟: 大数据平台从数据层面来说,包括数据 阅读全文
摘要:
keyvalue KeyValue中包含了丰富的自我描述信息: KeyValue是支撑”稀疏矩阵”设计的一个关键点:一些Key相同的任意数量的独立KeyValue就可以构成一行数据。但这种设计带来的一个显而易见的缺点:每一个KeyValue所携带的自我描述信息,会带来显著的数据膨胀。 为什么rowk 阅读全文
摘要:
本文主要涉及flush流程,探讨flush流程过程中引入的问题并阐述2种解决策略,最后简要说明Flush执行策略。 对于Compaction,本文主要探讨Compaction要解决的本质问题以及由Compaction引入的问题。面对Compaction带来的双刃剑,如何根据自己的业务模型合理的执行C 阅读全文
摘要:
本文主要分为三部分: 1. GP优化需要准备的一些关于优化之外的知识,包括清空缓存、性能监控、执行计划分析。 2. 具体优化措施,从以下四个方面考虑: 表、字段 sql GP配置、服务器配置 硬件及节点资源 3. GP的性能极限分析 1. 前置知识 1.1 "GP清除缓存" 数据库一般都有缓存,所以 阅读全文