摘要: 本文翻译自:http://lxml.de/tutorial.html, 作者:Stefan Behnel 这是一个关于使用lxml.etree进行XML处理的教程。它简要介绍了ElementTree API的主要概念,以及一些简单的增强功能,使你的编程更容易。 有关API的完整参考,请参考生成的AP 阅读全文
posted @ 2017-09-07 17:11 cnhkzyy 阅读(5684) 评论(0) 推荐(0) 编辑
摘要: 这段代码我还没理解透彻,比如每一页的小说信息写入完成后,怎么在后面加上第几页,后期我将继续完善它。 阅读全文
posted @ 2017-09-03 17:01 cnhkzyy 阅读(1186) 评论(0) 推荐(0) 编辑
摘要: 首先,我们来看一下,爬虫前基本的知识点概括 一. match()方法: 这个方法会从字符串的开头去匹配(也可以指定开始的位置),如果在开始没有找到,立即返回None,匹配到一个结果,就不再匹配。 我们可以指定开始的位置的索引是3,范围是3-10,那么python将从第4个字符'1'开始匹配,只匹配一 阅读全文
posted @ 2017-09-03 11:37 cnhkzyy 阅读(837) 评论(0) 推荐(0) 编辑
摘要: 在上一篇文章中,我主要是设置了代理IP,虽然得到了相关的信息,但是打印出来的信息量有点多,要知道每打印一页,15个小说的信息全部会显示而过,有时因为屏幕太小,无法显示全所有的小说信息,那么,在这篇文章中,我主要想通过设置回车来控制每一条小说信息的输出,当我按下回车时,会显示下一条小说的信息,按“Q” 阅读全文
posted @ 2017-08-31 16:46 cnhkzyy 阅读(993) 评论(0) 推荐(0) 编辑
摘要: 自己写了一个爬虫爬取豆瓣小说,后来为了应对请求不到数据,增加了请求的头部信息headers,为了应对豆瓣服务器的反爬虫机制:防止请求频率过快而造成“403 forbidden”,乃至封禁本机ip的情况,而设置了代理ip,详细请见代码和注释。 爬取豆瓣小说的链接:https://www.douban. 阅读全文
posted @ 2017-08-28 22:59 cnhkzyy 阅读(2085) 评论(0) 推荐(0) 编辑
摘要: 看用python写网络爬虫第一课之编写可复用的下载模块的视频,发现和《用Python写网络爬虫》一书很像,写了点笔记: 运行结果: 我们也可以加一个print dir(e)来查看e中的内容,e中的确包含着code 阅读全文
posted @ 2017-08-27 19:31 cnhkzyy 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记: 一、爬虫前的基本准备 1. 如何安装BeautifulSoup? pip install beautifu 阅读全文
posted @ 2017-08-27 18:36 cnhkzyy 阅读(448) 评论(0) 推荐(0) 编辑
摘要: 今天想利用Requests库爬取糗事百科站点,写了一个请求,却报错了: 后来参考kinsomy的博客,在cmd中pip install pyopenssl ndg-httpsclient pyasn1 后再重新运行,结果ok 阅读全文
posted @ 2017-08-26 11:10 cnhkzyy 阅读(508) 评论(0) 推荐(0) 编辑
摘要: 读 静觅 的python博客,学到requests库的用法,看到“”如果想请求JSON文件,可以利用 json() 方法解析 ”这里迷惑了: 我写了a.json文件放在本地,却不能被python调用,文末作者提示需要搭个服务器,用http访问json文件。于是想到了XAMPP,XAMPP集成了PHP 阅读全文
posted @ 2017-08-14 23:23 cnhkzyy 阅读(704) 评论(0) 推荐(0) 编辑
摘要: 下午看廖雪峰的Python2.7教程,看到 字符串和编码 一节,有一点感受,结合 崔庆才的Python博客 ,把这种感受记录下来: ASCII码:是用一个字节(8bit, 0-255)中的127个字母表示大小写字母,数字和一些符号.主要用来表示现代英语和西欧语言。 所以处理中文就出现问题了,因为中文 阅读全文
posted @ 2017-08-14 17:53 cnhkzyy 阅读(9971) 评论(0) 推荐(0) 编辑