随笔档案「2017年8月」 - cnhkzyy

Python爬虫之利用BeautifulSoup爬取豆瓣小说（二）——回车分段打印小说信息

摘要：在上一篇文章中，我主要是设置了代理IP，虽然得到了相关的信息，但是打印出来的信息量有点多，要知道每打印一页，15个小说的信息全部会显示而过，有时因为屏幕太小，无法显示全所有的小说信息，那么，在这篇文章中，我主要想通过设置回车来控制每一条小说信息的输出，当我按下回车时，会显示下一条小说的信息，按“Q” 阅读全文

posted @ 2017-08-31 16:46 cnhkzyy 阅读(1068) 评论(0) 推荐(0)

Python爬虫之利用BeautifulSoup爬取豆瓣小说（一）——设置代理IP

摘要：自己写了一个爬虫爬取豆瓣小说，后来为了应对请求不到数据，增加了请求的头部信息headers，为了应对豆瓣服务器的反爬虫机制：防止请求频率过快而造成“403 forbidden”，乃至封禁本机ip的情况，而设置了代理ip，详细请见代码和注释。爬取豆瓣小说的链接：https://www.douban. 阅读全文

posted @ 2017-08-28 22:59 cnhkzyy 阅读(2202) 评论(0) 推荐(0)

Python爬虫之编写一个可复用的下载模块

摘要：看用python写网络爬虫第一课之编写可复用的下载模块的视频，发现和《用Python写网络爬虫》一书很像，写了点笔记：运行结果：我们也可以加一个print dir(e)来查看e中的内容，e中的确包含着code 阅读全文

posted @ 2017-08-27 19:31 cnhkzyy 阅读(295) 评论(0) 推荐(0)

Python爬虫之BeautifulSoup的用法

摘要：之前看静觅博客，关于BeautifulSoup的用法不太熟练，所以趁机在网上搜索相关的视频，其中一个讲的还是挺清楚的：python爬虫小白入门之BeautifulSoup库，有空做了一下笔记：一、爬虫前的基本准备 1. 如何安装BeautifulSoup? pip install beautifu 阅读全文

posted @ 2017-08-27 18:36 cnhkzyy 阅读(482) 评论(0) 推荐(0)

解决：Python爬取https站点时SNIMissingWarning和InsecurePlatformWarning

摘要：今天想利用Requests库爬取糗事百科站点，写了一个请求，却报错了：后来参考kinsomy的博客，在cmd中pip install pyopenssl ndg-httpsclient pyasn1 后再重新运行，结果ok 阅读全文

posted @ 2017-08-26 11:10 cnhkzyy 阅读(522) 评论(0) 推荐(0)

解决：xampp中Apache, MySql, Filezilla端口占用问题

摘要：读静觅的python博客，学到requests库的用法，看到“”如果想请求JSON文件，可以利用 json() 方法解析 ”这里迷惑了：我写了a.json文件放在本地，却不能被python调用，文末作者提示需要搭个服务器，用http访问json文件。于是想到了XAMPP，XAMPP集成了PHP 阅读全文

posted @ 2017-08-14 23:23 cnhkzyy 阅读(746) 评论(0) 推荐(0)

Python中的Unicode编码和UTF-8编码

摘要：下午看廖雪峰的Python2.7教程，看到字符串和编码一节，有一点感受，结合崔庆才的Python博客，把这种感受记录下来： ASCII码：是用一个字节（8bit， 0-255）中的127个字母表示大小写字母，数字和一些符号.主要用来表示现代英语和西欧语言。所以处理中文就出现问题了，因为中文阅读全文

posted @ 2017-08-14 17:53 cnhkzyy 阅读(10046) 评论(0) 推荐(0)

解决：AttributeError: module 'requests' has no attribute 'get'”

摘要：今天学习Requests库，当用pip install requests安装后，写了一段代码报错：AttributeError: module 'requests' has no attribute 'get'” 后从https://www.zhihu.com/question/57011609得到阅读全文

posted @ 2017-08-14 10:52 cnhkzyy 阅读(10648) 评论(2) 推荐(1)

解决：return _compile(pattern, flags).search(string) TypeError: expected string or buffer

摘要：今天写爬虫，爬取MM图片页面的标题时，遇到了一个问题，上图：看看我的代码：哈哈，发现问题了吗？原因是我的返回的response没加read()，应该是return response.read() 好了，一波未平，一波又起。上图：为什么我的正则表达式匹配的标题连标签都匹配下来了，我们要的仅仅是标阅读全文

posted @ 2017-08-12 10:37 cnhkzyy 阅读(4723) 评论(0) 推荐(0)

解决：phantomjs helloworld.js报错: Can't open 'helloworld.js'

摘要：PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引.它原生支持多种web 标准：DOM 操作，CSS选择器，JSON，Canvas 以及SVG. 当我安装好PhantomJS后，写下第一个js文件，运行发现报错。我尝试了一些方法：比如将helloworld.js文件所在路径放到环境阅读全文

posted @ 2017-08-11 19:53 cnhkzyy 阅读(984) 评论(0) 推荐(0)

解决：WebDriverException: 'chromedriver' executable needs to be in PATH

摘要：打算学习用selenium + phantomJS爬取淘女郎页面照片。一. 先安装lxml模块 python默认的解析器是html.parser，但lxml解析器更加强大，速度更快 1. 执行 pip install virtualenv 2. 从官方网站下载与系统，Python版本匹配的lxml 阅读全文

posted @ 2017-08-06 12:13 cnhkzyy 阅读(9452) 评论(0) 推荐(2)

cnhkzyy

认真写博客，努力加餐饭

08 2017 档案

公告