随笔分类 -  Search Engine

摘要:今天看larbin的代码,我ubuntu也是在虚拟机上跑的,现在还没到需要爬取多少数据的时候,有时候就想简单改改代码,但是看代码还是喜欢在windows下面用si看(俺确实不是牛人,vim不熟练),然后平时虚拟机就那样开着,会影响机器的速度,硬盘上装了ubuntu了,也用了一段时间,是真的感觉没windows好用,所以一直被冷落着。特别是虚拟放着好久没用,再去打开要等好一会(操作系统的动态加载机制之一,没好好研究),墨迹了半天,差点忘了说正事了有个网站叫开放实验室它提供了相当多的社会上经常使用的主流unix服务器 并提供了接口 只需要注册一个账户 不需要花钱 就可以通过ssh工具访问做一些学习 阅读全文
posted @ 2011-04-09 14:50 ShaPherD 阅读(1349) 评论(3) 推荐(0) 编辑
摘要:以表格的形式简单的比较了几种开源爬虫的优点和缺点,以及社区的活跃程度。另外自己打算为larbin爬虫增加一个删除功能,暂时还没确定算法策略。 阅读全文
posted @ 2011-03-16 17:41 ShaPherD 阅读(18259) 评论(12) 推荐(5) 编辑
摘要:作者:Gupta, P. ; Johari, K. ; Linagay's Univ., India 文章发表在: Emerging Trends in Engineering and Technology (ICETET), 2009 2nd International Conference on pages 838~844 摘要-万维网是一个通过HTML格式使数十亿的文件产生联系的集合 ,然后如此规模庞大的数据已经成为信息检索的障碍,用户为了查找自己想要的资料可能要翻转数页。网络爬虫是搜索引擎的核心部分,网页爬虫持续不断的在互联网上爬行来寻找任何新的增加到网络中的页面和已经从网上删 阅读全文
posted @ 2011-03-06 00:47 ShaPherD 阅读(22097) 评论(20) 推荐(10) 编辑

点击右上角即可分享
微信分享提示