上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 29 下一页
摘要: 我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。 阅读全文
posted @ 2017-08-22 22:06 AlamZ 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。 阅读全文
posted @ 2017-08-22 08:42 AlamZ 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官 阅读全文
posted @ 2017-08-22 08:41 AlamZ 阅读(591) 评论(0) 推荐(0) 编辑
摘要: 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5_1.html 打开之后,不难看到里面一个一个灰常有内涵的段子,当你进行翻页的时候,注意url地址的变化: 第一页url: http: //www.neihan8.com/article 阅读全文
posted @ 2017-08-22 08:40 AlamZ 阅读(330) 评论(0) 推荐(0) 编辑
摘要: Cookie Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。 Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息 阅读全文
posted @ 2017-08-21 22:20 AlamZ 阅读(923) 评论(0) 推荐(0) 编辑
摘要: ProxyHandler处理器(代理设置) 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。 所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁 阅读全文
posted @ 2017-08-21 21:24 AlamZ 阅读(307) 评论(0) 推荐(0) 编辑
摘要: urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例; 但是 urllib 提供 urlencode 方法用来GET查询字符串的产生,而 urllib2 则没有。(这是 urllib 和 urllib2 经常一起使用的主要原因) 编码工作使用urllib的urle 阅读全文
posted @ 2017-08-20 22:55 AlamZ 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 运行结果: urllib2.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:590)> 所以,如果以后遇到这种网站,我们需要单独处理SSL证书,让程序忽略SSL证书 阅读全文
posted @ 2017-08-20 22:42 AlamZ 阅读(948) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-08-19 22:11 AlamZ 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 今天遇到一个奇葩问题, 1.r.request.post(url) 2..print r. status_code 居然第一步就报错了,原因是url不正确,按道理应该可以走到第二步然后输入404的 这样就可以异常设置值 得到r,即使不是response类型,也能获取值 getattr(result, 阅读全文
posted @ 2017-08-17 16:48 AlamZ 阅读(11046) 评论(0) 推荐(0) 编辑
上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 29 下一页