MySpace:开源数据处理Qizmt
MySpace发布了一个新的开源项目-Qizmt,是数据挖掘小组开发的一个分布式计算框架。Qizmt是基于MapReduce的分布式处理框架,丛所周知,这是Google搜索引擎基础设施的一个核心部分。但是Qizmt运行在微软服务器的大型集群上,具体内容可参看InfoQ:Qizmt:MySpace的开源MapReduce框架。
Qizmt已经在MySpace的“People you May Know”的特性中得到使用,很快会扩展到用户建议的领域和其他的一些新的领域。
Qizmt是以Windows平台的C# 开发,.NET的开发人员可以利用已有的技术编写MapReduce功能;MySpace指出,该公司内部评测发现,Qizmt的处理速度可与许多受欢迎的MapReduce开源项目相媲美。
此外,MySpace也认为有许多企业在商业智能平台上采用微软的技术,因此Qizmt可用来扩展这些平台,提供数据处理及数据挖掘功能。MySpace希望可以通过Qizmt开源项目吸引更多开发人员扩展该功能的应用。
社区还有另一个项目Hadoop-sharp,是将java的Hadoop移植到.net的。
MapReduce是一个编程模型,关联到处理执行并产生大量的数据集。用户可以指定一个映射函数处理一个键/值对并产生一系列的中间的键/值对,另外一个函数会整合所有中间的值并和相应的键关联起来。在和Java的工程师和分布式系统的专家Eugene Ciurana探讨MapReduce时,他说道“仅仅是索引大量的非结构化的数据就是一个非常困难的任务,更不用提那些技术问题了,而MapReduce为并行系统进行数据处理提供了一个简单,优雅的解决方案,”。
随着越来越多的网站开始管理大量的数据集,像MapReduce框架和Hadoop项目逐渐的发展起来。随着数据的增长随之而来的就是越来越多的市场机遇。用户之处运用这些新工具最佳的方式是及时利用开源。
MySpace Qizmt项目现已发布于Google Code,支持装有.NET 3.5 SP1的Windows 2003 Server,Windows 2008 Server及Windows Vista/Windows 7操作系统。
欢迎大家扫描下面二维码成为我的客户,扶你上云