cnhkzyy

2017年9月7日

摘要：本文翻译自：http://lxml.de/tutorial.html，作者：Stefan Behnel 这是一个关于使用lxml.etree进行XML处理的教程。它简要介绍了ElementTree API的主要概念，以及一些简单的增强功能，使你的编程更容易。有关API的完整参考，请参考生成的AP 阅读全文

posted @ 2017-09-07 17:11 cnhkzyy 阅读(5684) 评论(0) 推荐(0) 编辑

2017年9月3日

Python爬虫之利用BeautifulSoup爬取豆瓣小说（三）——将小说信息写入文件

摘要：这段代码我还没理解透彻，比如每一页的小说信息写入完成后，怎么在后面加上第几页，后期我将继续完善它。阅读全文

posted @ 2017-09-03 17:01 cnhkzyy 阅读(1186) 评论(0) 推荐(0) 编辑

Python爬虫之利用正则表达式爬取内涵吧

摘要：首先，我们来看一下，爬虫前基本的知识点概括一. match()方法：这个方法会从字符串的开头去匹配（也可以指定开始的位置），如果在开始没有找到，立即返回None，匹配到一个结果，就不再匹配。我们可以指定开始的位置的索引是3，范围是3-10，那么python将从第4个字符'1'开始匹配，只匹配一阅读全文

posted @ 2017-09-03 11:37 cnhkzyy 阅读(837) 评论(0) 推荐(0) 编辑

2017年8月31日

Python爬虫之利用BeautifulSoup爬取豆瓣小说（二）——回车分段打印小说信息

摘要：在上一篇文章中，我主要是设置了代理IP，虽然得到了相关的信息，但是打印出来的信息量有点多，要知道每打印一页，15个小说的信息全部会显示而过，有时因为屏幕太小，无法显示全所有的小说信息，那么，在这篇文章中，我主要想通过设置回车来控制每一条小说信息的输出，当我按下回车时，会显示下一条小说的信息，按“Q” 阅读全文

posted @ 2017-08-31 16:46 cnhkzyy 阅读(993) 评论(0) 推荐(0) 编辑

2017年8月28日

Python爬虫之利用BeautifulSoup爬取豆瓣小说（一）——设置代理IP

摘要：自己写了一个爬虫爬取豆瓣小说，后来为了应对请求不到数据，增加了请求的头部信息headers，为了应对豆瓣服务器的反爬虫机制：防止请求频率过快而造成“403 forbidden”，乃至封禁本机ip的情况，而设置了代理ip，详细请见代码和注释。爬取豆瓣小说的链接：https://www.douban. 阅读全文

posted @ 2017-08-28 22:59 cnhkzyy 阅读(2085) 评论(0) 推荐(0) 编辑

2017年8月27日

Python爬虫之编写一个可复用的下载模块

摘要：看用python写网络爬虫第一课之编写可复用的下载模块的视频，发现和《用Python写网络爬虫》一书很像，写了点笔记：运行结果：我们也可以加一个print dir(e)来查看e中的内容，e中的确包含着code 阅读全文

posted @ 2017-08-27 19:31 cnhkzyy 阅读(270) 评论(0) 推荐(0) 编辑

Python爬虫之BeautifulSoup的用法

摘要：之前看静觅博客，关于BeautifulSoup的用法不太熟练，所以趁机在网上搜索相关的视频，其中一个讲的还是挺清楚的：python爬虫小白入门之BeautifulSoup库，有空做了一下笔记：一、爬虫前的基本准备 1. 如何安装BeautifulSoup? pip install beautifu 阅读全文

posted @ 2017-08-27 18:36 cnhkzyy 阅读(448) 评论(0) 推荐(0) 编辑

2017年8月26日

解决：Python爬取https站点时SNIMissingWarning和InsecurePlatformWarning

摘要：今天想利用Requests库爬取糗事百科站点，写了一个请求，却报错了：后来参考kinsomy的博客，在cmd中pip install pyopenssl ndg-httpsclient pyasn1 后再重新运行，结果ok 阅读全文

posted @ 2017-08-26 11:10 cnhkzyy 阅读(508) 评论(0) 推荐(0) 编辑

2017年8月14日

解决：xampp中Apache, MySql, Filezilla端口占用问题

摘要：读静觅的python博客，学到requests库的用法，看到“”如果想请求JSON文件，可以利用 json() 方法解析 ”这里迷惑了：我写了a.json文件放在本地，却不能被python调用，文末作者提示需要搭个服务器，用http访问json文件。于是想到了XAMPP，XAMPP集成了PHP 阅读全文

posted @ 2017-08-14 23:23 cnhkzyy 阅读(704) 评论(0) 推荐(0) 编辑

Python中的Unicode编码和UTF-8编码

摘要：下午看廖雪峰的Python2.7教程，看到字符串和编码一节，有一点感受，结合崔庆才的Python博客，把这种感受记录下来： ASCII码：是用一个字节（8bit， 0-255）中的127个字母表示大小写字母，数字和一些符号.主要用来表示现代英语和西欧语言。所以处理中文就出现问题了，因为中文阅读全文

posted @ 2017-08-14 17:53 cnhkzyy 阅读(9971) 评论(0) 推荐(0) 编辑

认真写博客，努力加餐饭

公告