上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 55 下一页
摘要: 如下图,有些网站需要使用用户名密码才可以登录,我们可以使用 HTTPBasicAuthHandler() 来实现 阅读全文
posted @ 2019-03-14 16:19 孔雀东南飞 阅读(854) 评论(0) 推荐(0) 编辑
摘要: 我们可以使用 urllib.request.Request() 构造请求对象,但是对于一些更高级的操作,比如 Cookies 处理、代理设置 、身份验证等等,Request() 是处理不了的这时就需要更强大的工具 —— Handler,我们可以把它理解为各种处理器,有处理登录验证的,有处理 Cook 阅读全文
posted @ 2019-03-14 16:15 孔雀东南飞 阅读(355) 评论(0) 推荐(0) 编辑
摘要: (1) urllib.request.urlopen()方法可以实现最基本请求的发起,但这几个简单的参数并不足以构建一个完整的请求(2) 我们可以使用 urllib.request.Request() 先构造一个请求对象,这个请求对象可以包含请求头信息,或者包含要向服务器传递的数据,然后再发送请求( 阅读全文
posted @ 2019-03-14 16:14 孔雀东南飞 阅读(479) 评论(0) 推荐(0) 编辑
摘要: urllib.request.urlopen(url, data=None, timeout=n) 用于发送HTTP请求并得到响应内容 data 参数: (1) 该参数是可选的,如果要添加,则必须通过 urllib.parse.urlencode() 转换成字节流编码格式(2) 另外,如果传递了这个 阅读全文
posted @ 2019-03-14 16:13 孔雀东南飞 阅读(375) 评论(0) 推荐(0) 编辑
摘要: (1) urllib.request:最基本的HTTP请求模块,用来模拟发送请求,就像在浏览器里输入网址然后回车一样(2) urllib.error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止(3) urllib.parse:一个工具模块,提供 阅读全文
posted @ 2019-03-14 16:11 孔雀东南飞 阅读(140) 评论(0) 推荐(0) 编辑
摘要: (1) urllib 是 Python 内置的 HTTP 请求库,用来向服务器发送 HTTP 请求(2) 在 Python2.x 中,有 urllib 和 urllib2 两个模块;在 Python3.x 中,urllib2 合并到了 urllib 中(3) 在 Python2.x 中使用 impo 阅读全文
posted @ 2019-03-14 16:10 孔雀东南飞 阅读(897) 评论(0) 推荐(0) 编辑
摘要: 爬虫节点爬取到的网页数据会存放到资源库中,资源库对爬取到的数据进行分析并建立索引,分析算法有以下几种 (1) 基于用户行为的分析算法:根据用户对网页的访问频率 、访问时长 、点击率等对网页数据进行分析(2) 基于网络拓扑的分析算法:根据网页的外链 、网页的层次 、网页的等级等对网页数据进行分析,计算 阅读全文
posted @ 2019-03-14 15:58 孔雀东南飞 阅读(1757) 评论(0) 推荐(0) 编辑
摘要: 一个网站的网页经常会更新,在网页更新之后,作为爬虫方,我们则需要对这些网页进行重新爬取,有以下几种策略进行重新爬取 (1) 用户体验策略:我们从浏览器搜索一个关键字,会出现一个排名结果,我们可以根据排名靠前的网页更新爬虫程序,对其进行爬取,这种更新策略称为用户体验策略(2) 历史数据策略:一般我们不 阅读全文
posted @ 2019-03-14 15:57 孔雀东南飞 阅读(543) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫爬行过程中,会爬到一些新的URL,对这些 URL 爬取的顺序,是由爬行策略来决定的 (1) 深度优先爬行策略:先爬取一个网页,然后将这个网页的下层链接依次爬取完再返回上一层进行爬取,如下图,爬取的顺序是 A → D → E → B → C → F → G(2) 广度优先爬行策略:先爬取同一层 阅读全文
posted @ 2019-03-14 15:56 孔雀东南飞 阅读(2660) 评论(0) 推荐(0) 编辑
摘要: (1) 网络爬虫由控制节点 、爬虫节点 、资源库组成;以搜索引擎或聚焦网络爬虫为例,先确定好要爬取的主题和要爬取的初始URL(2) 控制节点调用爬虫节点对初始URL进行爬取,爬行过程中,会爬到一些新的URL,会根据主题过滤掉一些URL,然后把剩下的URL根据优先级添加到URL队列等待爬取(3) 爬虫 阅读全文
posted @ 2019-03-14 15:55 孔雀东南飞 阅读(2034) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 55 下一页