08 2017 档案

摘要:在上一篇文章中,我主要是设置了代理IP,虽然得到了相关的信息,但是打印出来的信息量有点多,要知道每打印一页,15个小说的信息全部会显示而过,有时因为屏幕太小,无法显示全所有的小说信息,那么,在这篇文章中,我主要想通过设置回车来控制每一条小说信息的输出,当我按下回车时,会显示下一条小说的信息,按“Q” 阅读全文 »
posted @ 2017-08-31 16:46 cnhkzyy 阅读(1012) 评论(0) 推荐(0) 编辑
摘要:自己写了一个爬虫爬取豆瓣小说,后来为了应对请求不到数据,增加了请求的头部信息headers,为了应对豆瓣服务器的反爬虫机制:防止请求频率过快而造成“403 forbidden”,乃至封禁本机ip的情况,而设置了代理ip,详细请见代码和注释。 爬取豆瓣小说的链接:https://www.douban. 阅读全文 »
posted @ 2017-08-28 22:59 cnhkzyy 阅读(2130) 评论(0) 推荐(0) 编辑
摘要:看用python写网络爬虫第一课之编写可复用的下载模块的视频,发现和《用Python写网络爬虫》一书很像,写了点笔记: 运行结果: 我们也可以加一个print dir(e)来查看e中的内容,e中的确包含着code 阅读全文 »
posted @ 2017-08-27 19:31 cnhkzyy 阅读(275) 评论(0) 推荐(0) 编辑
摘要:之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记: 一、爬虫前的基本准备 1. 如何安装BeautifulSoup? pip install beautifu 阅读全文 »
posted @ 2017-08-27 18:36 cnhkzyy 阅读(454) 评论(0) 推荐(0) 编辑
摘要:今天想利用Requests库爬取糗事百科站点,写了一个请求,却报错了: 后来参考kinsomy的博客,在cmd中pip install pyopenssl ndg-httpsclient pyasn1 后再重新运行,结果ok 阅读全文 »
posted @ 2017-08-26 11:10 cnhkzyy 阅读(510) 评论(0) 推荐(0) 编辑
摘要:读 静觅 的python博客,学到requests库的用法,看到“”如果想请求JSON文件,可以利用 json() 方法解析 ”这里迷惑了: 我写了a.json文件放在本地,却不能被python调用,文末作者提示需要搭个服务器,用http访问json文件。于是想到了XAMPP,XAMPP集成了PHP 阅读全文 »
posted @ 2017-08-14 23:23 cnhkzyy 阅读(713) 评论(0) 推荐(0) 编辑
摘要:下午看廖雪峰的Python2.7教程,看到 字符串和编码 一节,有一点感受,结合 崔庆才的Python博客 ,把这种感受记录下来: ASCII码:是用一个字节(8bit, 0-255)中的127个字母表示大小写字母,数字和一些符号.主要用来表示现代英语和西欧语言。 所以处理中文就出现问题了,因为中文 阅读全文 »
posted @ 2017-08-14 17:53 cnhkzyy 阅读(10023) 评论(0) 推荐(0) 编辑
摘要:今天学习Requests库,当用pip install requests安装后,写了一段代码报错:AttributeError: module 'requests' has no attribute 'get'” 后从https://www.zhihu.com/question/57011609得到 阅读全文 »
posted @ 2017-08-14 10:52 cnhkzyy 阅读(10535) 评论(2) 推荐(1) 编辑
摘要:今天写爬虫,爬取MM图片页面的标题时,遇到了一个问题,上图: 看看我的代码: 哈哈,发现问题了吗?原因是我的返回的response没加read(),应该是return response.read() 好了,一波未平,一波又起。上图: 为什么我的正则表达式匹配的标题连标签都匹配下来了,我们要的仅仅是标 阅读全文 »
posted @ 2017-08-12 10:37 cnhkzyy 阅读(4695) 评论(0) 推荐(0) 编辑
摘要:PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引.它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG. 当我安装好PhantomJS后,写下第一个js文件,运行发现报错。 我尝试了一些方法:比如将helloworld.js文件所在路径放到环境 阅读全文 »
posted @ 2017-08-11 19:53 cnhkzyy 阅读(962) 评论(0) 推荐(0) 编辑
摘要:打算学习用selenium + phantomJS爬取淘女郎页面照片。 一. 先安装lxml模块 python默认的解析器是html.parser,但lxml解析器更加强大,速度更快 1. 执行 pip install virtualenv 2. 从官方网站下载与系统,Python版本匹配的lxml 阅读全文 »
posted @ 2017-08-06 12:13 cnhkzyy 阅读(9438) 评论(0) 推荐(2) 编辑

点击右上角即可分享
微信分享提示