代码改变世界

抓虾网的架构

2010-08-14 12:49  乱世文章  阅读(456)  评论(0编辑  收藏  举报

抓虾网是一个提供RSS在线阅读服务的网站,由徐易客与谌振宇在2005年创办,我使用抓虾将近两个月的时间,后来由于抓虾不能抓取一些国外的RSS(Google Reader能抓取),同时RSS的更新速度也比较慢,同时UI/UE也比不上鲜果,甚至比不上有道阅读,因此后来放弃了抓虾。到现在为止一直使用Google Reader,当然Google Reader也有它的缺点,比如不能修改文件夹的名称,当然这个不是很重要,以后应该会改进的,其它方面还算都不错。

抓虾现在后端服务主要用C++,前端用
PHP(就是采用比较流行的LAMP组合,具体可以看这儿)和JavaScript,也用了Python来做一些多个模块结合的工作。

下面这些引用自抓虾的官方博客上,他们自己开发了很多系统,不知道为什么没有用开源系统

  1. 存储:ZStorage,抓虾自己开发了分布式的存储系统,用来存储海量数据,抓虾的文章数已经接近了7亿篇,每天还在疯狂增长,数据量早就超过了 1 TB。感谢大牛工程师CL为我们带来稳定的存储系统。
  2. 抓取:ZSpider,400万博客、接近7亿篇文章背后,是抓虾强大的分布式Spider,融合几十种抓取策略,多种页面分析算法与内容抽取算法,无论是普通网页、RSS、 论坛页面甚至JS脚本,都可以应付自如。当然,这个spider也是由抓虾工程师用一行一行代码写出来的。
  3. 搜索:有了这么多数据,怎么找呢?ZIndex,三个工程师用一个月的时间,开发了抓虾的分布式、高效灵活的检索系统,性能可比主流搜索引擎,为抓虾用户提供TB 级海量数据的检索。
  4. 缓存:抓虾自己开发的分布式缓存 ZCache,命中率只能用一个字来形容——舒服。 这么精彩的作品,感谢大牛工程师dasheng。


用什么技术不是最重要的,不管是你自己开发的也好,是用开源的系统也好(提前是要在高并发下不要出现什么大的问题),最终的目的是为用户带来有价值的服务,然后再在这个基础上考虑盈利模式。由于Google Reader目前没有盈利的压力,而且它的背后有着Google强大的团队的支撑,Google Reader会越来越好,而且用户转换RSS的成本很低(也就是简单的OPML导入及导出,非常简单的),因此抓虾如果再不把用户体验做好,用户可能会逐渐转换到Google Reader或鲜果,甚至有可能转换到有道阅读、QQ阅读空间、搜狐闪电阅读