之乎者也,阿弥陀佛

软件设计的原则就是,化繁为简,化难为易,把人的思维集中在简单的领域,然后通过有序的组合实现复杂的逻辑。

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2011年9月1日

摘要: 一淘网(www.etao.com)于2010年10月9日10:39正式上线,很多同学和同行对一淘的系统架构和面临的关键技术问题都很感兴趣,这篇短文希望能给予简要的介绍。系统架构一淘的系统架构如上图所示。可以看到,一淘有三个数据来源:互联网、外部合作方和淘宝主站。其中,互联网数据通过crawl的方式获得,而后两者则通过feed的方式提供。抓取系统的功能包括:网页抓取、抓取调度、域名解析、死链检测、JavaScript执行等。目前,一淘的资讯、话题、问答combo中的大部分数据都是通过抓取系统从互联网获得的。它是一淘一个重要的“原料厂”。离线处理系统是一个功能众多、可灵活定制的Pipeline,其 阅读全文
posted @ 2011-09-01 15:34 搏击的小船 阅读(2106) 评论(0) 推荐(0) 编辑