摘要: 转自:https://my.oschina.net/u/2982571/blog/775452 设计背景 百度的链接处理系统每天处理万亿级的超链数据,在过去,这是一系列Mapreduce的批量过程,对时效性收录很不友好。在新一代搜索引擎架构设计中,我们采用流式、增量处理替代了之前的批量、全量处理。链 阅读全文
posted @ 2016-12-22 16:24 bonelee 阅读(2939) 评论(0) 推荐(0) 编辑
摘要: C: Consistency 一致性 • A: Availability 可用性(指的是快速获取数据) • P: Tolerance of network Partition 分区容忍性(分布式) 10年前,Eric Brewer教授指出了著名的CAP理论,后来Seth Gilbert 和 Nanc 阅读全文
posted @ 2016-12-22 16:00 bonelee 阅读(1718) 评论(0) 推荐(0) 编辑
摘要: Greenplum数据库基于PostgreSQL开源技术。本质上讲,它是多个PostgreSQL实例一起充当一个数据库管理系统。Greenplum以PostgreSQL 8.2.15为基础构建,在SQL支持、特性、配置选项和终端用户功能方面非常像PostgreSQL,用户操作Greenplum就跟平 阅读全文
posted @ 2016-12-22 15:48 bonelee 阅读(2255) 评论(0) 推荐(0) 编辑
摘要: 现实中很多数据都是用图来表达的,比如社交网络中人与人的关系、地图数据、或是基因信息等等。RDBMS并不适合表达这类数据,而且由于海量数据的存在,让其显得捉襟见肘。NoSQL数据库的兴起,很好地解决了海量数据的存放问题,图数据库也是NoSQL的一个分支,相比于NoSQL中的其他分支,它很适合用来原生表 阅读全文
posted @ 2016-12-22 14:59 bonelee 阅读(35845) 评论(0) 推荐(3) 编辑