James Phillips谈从关系型数据库转到NoSQL

InfoQ:在谈及数据持久和数据管理时,您提到了“大数据(Big Data)”和“大用户(Big User)”,可否解释这两个概念之间的区别以及如何在二者之间做选择?

James Phillips大数据:需要收集并存储大量信息,然后对信息进行分析和学习。它需要持续的高吞吐的写(收集信息时)和读(分析信息时)。数据本地化模型的优化方法是将“关联的数据”放在物理上临近的地方,从而确保分析的高效性。通常来说,它需要少量做数据插入的同步写和少量做信息分析的同步读。

大用户:需要为随机的读和写,以及大量并发读和写提供服务。数据本地化模型的优化方法则应该将“关联的数据”尽可能地分散开,从而将读和写操作最大限度地分散到不同的服务器和转轴之上。

InfoQ:NoSQL数据库与关系型数据库相比,在数据建模和应用开发上其最主要的差别是什么?

James:关系型数据模型(及其数据建模)关注的是数据规范化的过程——将“记录”分解成许多表以及表之间的关系,降低数据冗余。在过去,系统资源有限时,其意义非常大,因为每个字节的处理效率都很关键。而面向文档的方式存储数据则是更加自然的方式。其缺点是在某些情况下,数据要冗余,查询模型也自然更复杂一些。但是,数据建模要简单得多,因为现实世界中,信息并不总需要规范。而且,因为限制少了,应用开发者的生产力也提高了。

InfoQ:在演讲中您谈到面向文档的数据库。在哪些情况下,用面向文档的数据库优于关系型数据库?

James:面向文档的数据库在以下场景中更胜一筹:需要数据模型的灵活性(数据管理过程中,需求变更无需变更schema);低延迟、持久、高吞吐的读写性能;通过将数据和I/O方便地分散到廉价服务器和虚拟机之上,使基础设施费用与应用程序性能成正比。

InfoQ:面向文档的数据库支持哪些数据持久和数据管理的架构模式?

James:大多数NoSQL及面向文档的数据库都支持多种持久化模型:从完全的同步策略(比如,只有当数据写入磁盘或持久设备之后才报告写操作成功)到多种异步存储策略(比如,接受写请求之后,在实际写入磁盘之前就报告成功;或者,仅仅在完成数据备份之后即报告成功)。

InfoQ:面向文档的数据库有哪些缺点?应用架构师和开发者在使用这类数据库时应考虑哪些问题?

James:目前,面向文档的数据库不直接支持连接(join),事务的支持通常只针对单个文档,之前提到的数据持久灵活性也可算作缺点。它产生了数据冗余,在某些情况下,当数据变更时需要在多处更新数据。所以,基于面向文档数据库的应用要为处理相互依赖的更新做更多事情。将来,我们会看到使用外部事务监控器来填补目前对事务支持上的断层。同样,在应用层也有办法实现诸如连接查询之类的功能。

posted @ 2011-12-14 00:10  YouDoce  阅读(167)  评论(0编辑  收藏  举报