随笔分类 -  网络爬虫

摘要:分析的函数:void sequencer()//位置:larbin-2.6.3/src/fetch/sequencer.ccvoid sequencer() { bool testPriority = true; if (space == 0) //unit... 阅读全文
posted @ 2014-06-17 23:22 jihite 阅读(2541) 评论(0) 推荐(3) 编辑
摘要:如果源网页是GBK字节流,在程序端接收时的inputstream得到的字节数组的编码方式肯定是GBK字节流,即源网页是什么编码方式的字节流,程序端接收到的字节流的编码方式肯定是相同的。因此,只要在程序端解析出该流实际的编码方式即可将该流获得的源网页的字节数组转化成正常的编码显示形式。即算“解码-... 阅读全文
posted @ 2014-06-14 20:59 jihite 阅读(1699) 评论(0) 推荐(0) 编辑
摘要:1. # 10年9月,twitter改版。一个显著变化,就是URL加入了"#!"符号。比如,改版前的用户主页网址为http://twitter.com/username改版后,就变成了http://twitter.com/#!/username 这是主流网站第一次将"#"大规模用于重要URL中。... 阅读全文
posted @ 2014-06-08 20:03 jihite 阅读(230915) 评论(17) 推荐(32) 编辑
摘要:最近在做语义方面的问题,需要反义词。就在网上找反义词大全之类的,但是大多不全,没有我想要的。然后就找相关的网站,发现了http://fanyici.xpcha.com/5f7x868lizu.html,还行能把“老师”-“学生”,“医生”-“病人”这样对立关系的反义词查出来。一开始我想把网站中数据库... 阅读全文
posted @ 2014-05-13 17:17 jihite 阅读(18009) 评论(2) 推荐(1) 编辑
摘要:1. 科普 通用搜索引擎处理的对象是互联网的网页,目前网页的数量数以亿计,所以搜索引擎面临的第一个问题是如何设计出高效的下载系统,已将海量的网页下载到本地,在本地形成互联网网页的镜像。网络爬虫就是担当此大任的。 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏... 阅读全文
posted @ 2014-05-06 17:41 jihite 阅读(5203) 评论(0) 推荐(0) 编辑
摘要:介绍功能:网络爬虫开发语言:c++开发者:Sébastien Ailleret(法国)特点:只抓取网页,高效(一个简单的larbin的爬虫可以每天获取500万的网页)安装安装平台:Ubuntu 12.10下载:http://sourceforge.net/projects/larbin/files/... 阅读全文
posted @ 2014-04-27 23:22 jihite 阅读(7372) 评论(1) 推荐(1) 编辑