架构深渊

慢慢走进程序的深渊……关注领域驱动设计、测试驱动开发、设计模式、企业应用架构模式……积累技术细节,以设计架构为宗。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

淘宝网与Oracle

Posted on 2008-11-15 09:08  chen eric  阅读(398)  评论(1编辑  收藏  举报

成立于2003年的淘宝网稳踞亚洲购物网站的第一名,会员数超过4000万人,每年成交额皆以倍数快速成长,在2006年就已突破169亿人民币。随着业绩的持续攀升,以及同步成长的惊人数据量,淘宝网希望能从中挖掘出有用的信息,做为业务决策与网站运营的依据,因此,决定投资建置数据仓库。

淘宝网以Oracle网格运算(Grid Computing)技术重新打造并强化基础架构环境,再进行数据仓库的建置,短短半年之内就完成上线工作。淘宝网表示:「数据仓库的效益,在于分析历史、预测将来,以及看到所有活动的历史轨迹。它同时也是最佳指针,有效规范最终决策,不致太过偏离现实。

挑战业务面与技术面的双重需求

淘宝网所面临的挑战,分别来自业务面与技术面。就业务面来看,如何设计出更多且更好的行销活动,以吸引更多客户,正是首要的业务目标。

而在技术面,基础架构的提升及强化将是关键。淘宝网甫于2003年成立,就连年以倍数快速成长,对于延展性的需求特别高;但另一方面,基础架构的建置仍缺乏整体且完善的规划与考量,则是主要的隐忧。

截至目前为止,淘宝网所累积的数据量已达10 TB之多,而且,这个数字还会随着每年翻倍成长的成交额同步上升。但庞大的数据量与计算量,已超出原有环境的负荷,进而对数据库的运行速度造成显著的影响。

淘宝网说明,原有的数据库虽然只使用了二、三年,但由于数据量成长的很快,再加上今年激活了许多新项目,对于数据库的要求也相对提高。因此,建置数据仓库时,最大的技术挑战将在于效率及速度。

效益
添增商业智能与数据挖掘功能,运行效能提升超过两倍

淘宝网的数据仓库主要提供商业智能(Business Intelligence)分析与数据挖掘(Data Mining)两大功能,同时,也会根据业务需求,提供所需的企业级报表,或进行用户行为模式分析。

淘宝网表示:「高达八成的员工都会使用数据仓库系统,无论是财务、巿场、服务或网站运营,同样必须每天看报表、做分析。而在主管方面,则是生成报表之后,再以电子邮件寄发。

举例来说,针对「十一长假」,淘宝网设计了许多促销活动上线,要确认活动是否达到预期目标,就要靠数据仓库来计算及分析活动的效果。此外,巿场部门也能根据往年的历史数据,找出效果最好的活动并重新包装推出。
淘宝网指出,数据仓库上线之后,搜寻及查询数据的效能比原有环境提升两倍以上,整体系统的效能表现游刃有余,使用上也更为迅速及便利。

针对数据仓库的未来应用方向,淘宝网也有许多规划与期望,例如:增加「推荐引擎」,强化对消费者的服务,让数据仓库的应用不只局限在传统领域,而是让更多人使用及共享。

淘宝网表示:「公司里每个部门的业绩都有倍数成长,IT部门当然也不能落后。以Oracle技术建置的基础架构与数据仓库环境,绝对具备支持公司在未来持续成长的延展空间。

从两小时缩减为五分钟的高效率。
除了建置数据仓库之外,强化基础架构同样名列本次项目的重点。Oracle则以网格运算技术Oracle Real Application Clusters与Oracle Cluster Ready Services,结合自动化管理方案Oracle Automatic Storage Management与Oracle Partitioning,为淘宝网打造高延展性且自动化的基础架构环境。

以Oracle Automatic Storage Management为例,主要在取代原本必须以人力手动操作及调整的主机工具。由于Oracle Automatic Storage Management是高度自动化的解决方案,绝大多数的作业都能自动进行管理,无需人力介入操作,因而大幅减轻了工作负担。

举例来说,要为服务器增加磁盘时,过去必须先由IT人员做好规划,涵盖从设定、安装到分散数据,才能行动。但现在,IT人员只需下指令,后续作业就由Oracle Automatic Storage Management自动接手完成,通盘考量最佳的安装及建置作法,完全无需IT人员的介入。

淘宝网表示:「过去必须耗费两小时才能完成的工作,在Oracle Automatic Storage Management只要五分钟就能完成,不仅效率更高,管理负担也相对减轻许多。而且,Oracle Automatic Storage Management还能随时自动进行监控调整,确保系统环境的优化。

评选与导入
添增商业智能与数据挖掘功能,运行效能提升超过两倍

2007年初,淘宝网找来了Oracle、NCR、IBM、HP与Sybase进行解决方案评估,最后只留下Oracle与NCR进行对战。第一道关卡是概念验证(PoC;Proof of Concept),进行大批量的特殊查询与并行查询;第二道关卡则是性能/价格比。

以性能而言,Oracle在多项标竿测试里,领先竞争产品数倍。更重要的是,运行于开放系统的Oracle数据仓库,相较于采用专属软硬件的竞争产品,不仅初期建置成本更低,维运及升级也更为容易,而且,因应未来需求的成长,还能以更低投资,更弹性地扩充IT基础架构。

淘宝网就指出:「建置数据仓库的主要原因,就是要解决数据量太大,导致数据库变慢的问题。根据我们评估的结果,Oracle的性能好,价格比更是领先,理所当然成为我们的最佳选择。

针对淘宝网所需的并行处理系统,Oracle Real Application Cluster先以四个节点来建构底层环境,但也预留了后续扩充至八个节点、十六个节点的成长空间,满足淘宝网对系统效能及延展性的重视,同时也大幅提升数据仓库的性能。

值得一提的是,淘宝网从选定Oracle到数据仓库系统上线,在短短六个月内就完成项目。而且,建置及导入作业都是由淘宝网一手包办,显见其强大的技术实力。而在项目进行过程中,Oracle也协助执行概念验证与技术问题的排除。

淘宝网表示:「我们原有的数据库就是Oracle,而且也搭配了Oracle Real Application Clusters,因此,早已培养了一群专业人才与资源,不仅可沿用至数据仓库项目,整体上线过程也更为驾轻就熟。