每天50TB 淘宝海量数据轻松“漫游”记

导语:在电子商务领域,淘宝可谓是一支奇葩。它创造了中国最大的电子商务网站,形成了一个包括买家、买家、物流、金融、广告、搜索在内的商业生态系统。据了解,淘宝目前每天的活跃数据量已经超过50TB,共有4亿条产品讯息和2亿多名注册用户在上面活动,每天超过4000万人次访问。如此巨大的数据访问量,使得淘宝数据仓库成为国内最忙碌的数据仓库之一。每天大约要处理几亿次的用户行为。那么,淘宝是如何建立和管理自己的数据仓库,保证其高效、安全地运行和管理的呢?在北京oracle全球大会上,记者访问了淘宝网技术开发部高级数据库专家江枫,详细了解了在oracle数据库和Oracle RAC产品基础上,淘宝是如何构建自己的数据仓库奇迹的过程。

    据江枫介绍,淘宝所有的商业数据基本上都是汇集到数据仓库来集中,然后进行运算,最终会根据不同的BI模型,得出不同的结果。通过对各种访问、交易、商铺信息以及客服信息等的综合处理,形成反映各种浏览、交易和用户行为、行业销售趋势方面的统计数据,可以给整个公司的决策提供数据方面的支持。因此,淘宝的数据库系统对整个公司来说,是至关重要的。同时,江枫也表示,淘宝的数据除了给公司内部用以外,也有提供给外部用户的。比如说淘宝2010年做的数据魔方产品,就是给淘宝的卖家提供商品的销售情况,行业的销售的趋势,给淘宝卖家带来更大的数据营销方面的数据方面的支持;另外还有一个比较大的数据产品是电子统计,即提供给淘宝卖家的一些电子统计,包括卖家的访客来源,访客喜欢什么时间段来,定了哪些商品等非常详细的订货的统计,这些信息也有助于淘宝的产品商户和卖家了解、分析用户行为,设计增值服务。这不仅需要数据仓库对海量数据进行更新、集中处理,也需要它能提供每天动态、实时的分析,无疑对于数据库系统是个巨大的挑战。

    淘宝网利用Oracle产品构建淘宝数据库的技术已经有4年的时间。并于2007年、2008年和2009年三次利用Oracle RAC 10g和Oracle RAC 11g对数据仓库系统进行了升级和扩充,将数据仓库部署在RAC系统之上。4年来,淘宝的业务每年是保持100%以上的增长速度,淘宝的数据库也在不断增长。2006年,淘宝的RAC系统还是4个节点,2008年,淘宝将之升级到12个节点,2009年的时候又把它升到20个节点,使淘宝在数据仓库规模每年成倍扩大的情况下,实现了数据处理和分析时效性的不断提升,应对不断增长的数据处理需求。

    同时,江枫强调,该数据库系统的实时更新已经可以做到每小时,或者是每15分钟,甚至可以做到秒级的水平——淘宝现在今年新开发的基于日期的复制已经可以做到秒级的实时更新数据到这个数据仓库里面来。

    对于淘宝来说,数据的安全性更加重要。江枫说,淘宝就是所有的数据库肯定都是在集成网络之后的,在外面任何地方都是没有办法访问到淘宝上数据库上的数据的。在监控上,淘宝有自己一整套监控系统在支持,包括我们防欺诈、防恶意的数据。在淘宝内部,专门设置了一个非常大的部门在做这个事情。

    目前,Oracle 11g产品也在淘宝的数据仓库系统内进行着测试,并将在不久的将来,在淘宝网的数据库系统建设中,发挥更大的作用。

声明:CSDN登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

posted @ 2011-01-20 09:44  张长胜  阅读(357)  评论(0编辑  收藏  举报