随笔分类 -  网络爬虫

个人技术爱好
摘要:今天要在百度文库下一个文档,由于之前测试,清掉了cookies,所以下载文档时突然提示登陆(之前一直都是自动登陆,记不住密码啊……),试了半天才想起来密码,就打算在分析下。 要说自己对百度文库也算缘分不浅,当年大二的时候我们工作室接到一个项目,就是采集互联网的各类电子文档,以供某公司建立文库。当时百度虽说还上线不到一年,但是却已经很有名气,因此也是我们的重点关注对象。下边开始分析(只看下载分析直接看(二)就行了): 一、文档在线展示的实现方式和采集策略 在线文库普遍采用的技术有两大类:一是将文档转为swf文件,然后页面用flash展示;二是按照文档原有结构,生成html结构展示。就我们... 阅读全文
posted @ 2014-02-23 22:04 oO脾气不坏Oo 阅读(3025) 评论(6) 推荐(1) 编辑
摘要:时隔这么久,继续开写。本文系上一篇的补充:爬虫部分技术要点浅析。 本次将主要讨论上次提出的后两个问题:如何处理抽取出来的Url。3、如何处理抽取出来的Url(爬取策略)? 所谓爬取策略,就是网络爬虫从种子网址开始,应该按照怎样的顺序向下爬取。以下是几种典型的爬取策略(既然是浅析,这里只做介绍,想要深入了解请自行查阅资料): (1)深度优先策略 看到这个名词估计多数人立马都会明白,该策略的实现思路采用的是图的深度遍历。事实上当我们通常把网络看做一个图,网络中每个页面看做图中节点,这样在考虑遍历的问题时,很自然的就会使用图的遍历方法(其实也就是树的深度优先遍历)。看下图: ... 阅读全文
posted @ 2013-05-02 00:24 oO脾气不坏Oo 阅读(2519) 评论(6) 推荐(3) 编辑
摘要:本来打算昨晚发的,结果园子又迁移...... 网络爬虫(Spider或Crawler),顾名思义,就是在互联网上爬行的虫子,那么这只虫子为什么要在网上爬行呢?很简单:收集信息。在互联网时代,谁掌握了信息谁就把握了主动权。曾经我一直觉得做搜索的公司都是慈善家,他们自己花钱为大众服务,真是太高尚了,直到我知道谷歌每年大半的盈利来自广告,我才明白那句名言——互联网上最昂贵的东西就是免费,因为它能让你轻易的接受,却无法舍弃。(我想多数人离开了搜索引擎,将在网络上寸步难行) 好吧,扯多了,我们先看下下图。我们可以很容易的看出,网络爬虫的根本任务就是从互联网抓取数据,存入数据库或本地文件系统以供使... 阅读全文
posted @ 2013-04-13 09:17 oO脾气不坏Oo 阅读(3379) 评论(5) 推荐(1) 编辑
摘要:这一篇将简要介绍一下JobSearch的结构,同时发下源码,来点干货,等过两天闲的时候将围绕这个程序简单介绍搜索引擎的各部分,同时谈谈个人的一些理解。程序写的比较简单,基础好的话很容易就能看懂(因为写的比较早,所以代码比较乱,还望各位勿喷啊)。 SVN地址:http://code.taobao.org/svn//jobsearch/trunk 源文件下载地址:http://files.cnblogs.com/good-temper/jobsearch.rar1、程序结构 程序框架如下: (1)、爬虫从招聘网站通过列表页抓取招聘页面,将招聘信息解析出后存入数据库 (... 阅读全文
posted @ 2013-04-10 01:04 oO脾气不坏Oo 阅读(2332) 评论(10) 推荐(3) 编辑