随笔档案「2017年8月」 - AlamZ

python 2个版本如何共存

摘要：我们在安装Python3（>=3.3）时，Python的安装包实际上在系统中安装了一个启动器py.exe，默认放置在文件夹C:\Windows\下面。这个启动器允许我们指定使用Python2还是Python3来运行代码（当然前提是你已经成功安装了Python2和Python3）。我们在安装Pyth 阅读全文

posted @ 2017-08-25 10:17 AlamZ 阅读(529) 评论(0) 推荐(1)

python 多线程糗事百科案例

摘要：案例要求参考上一个糗事百科单进程案例 Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread 阅读全文

posted @ 2017-08-22 22:24 AlamZ 阅读(386) 评论(0) 推荐(0)

python 糗事百科实例

摘要：爬取糗事百科段子，假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求：使用requests获取页面信息，用XPath / re 做数据提取获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数保存到 json 文件内参考代码阅读全文

posted @ 2017-08-22 22:24 AlamZ 阅读(182) 评论(0) 推荐(0)

python 数据提取之JSON与JsonPATH

摘要：JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 Python 2.7中自带了JSON模块阅读全文

posted @ 2017-08-22 22:13 AlamZ 阅读(12422) 评论(0) 推荐(0)

python 案例：使用BeautifuSoup4的爬虫

摘要：我们以腾讯社招页面来做演示：http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间，以及每个职位详情的点击链接存储出来。阅读全文

posted @ 2017-08-22 22:06 AlamZ 阅读(396) 评论(0) 推荐(0)

python XML实例

摘要：案例：使用XPath的爬虫现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。阅读全文

posted @ 2017-08-22 08:42 AlamZ 阅读(251) 评论(0) 推荐(0)

python XML基础

摘要：什么是XML XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官阅读全文

posted @ 2017-08-22 08:41 AlamZ 阅读(601) 评论(0) 推荐(0)

python 使用正则表达式的爬虫

摘要：下面我们一起尝试一下爬取内涵段子网站： http://www.neihan8.com/article/list_5_1.html 打开之后，不难看到里面一个一个灰常有内涵的段子，当你进行翻页的时候，注意url地址的变化：第一页url: http: //www.neihan8.com/article 阅读全文

posted @ 2017-08-22 08:40 AlamZ 阅读(338) 评论(0) 推荐(0)

python cookies 爬虫处理

摘要：Cookie Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪，而储存在用户浏览器上的文本文件，Cookie可以保持登录信息到用户下次与服务器的会话。 Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息阅读全文

posted @ 2017-08-21 22:20 AlamZ 阅读(948) 评论(0) 推荐(0)

python 代理

摘要：ProxyHandler处理器（代理设置）使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁阅读全文

posted @ 2017-08-21 21:24 AlamZ 阅读(320) 评论(0) 推荐(0)

python urllib 和 urllib2

摘要：urllib 仅可以接受URL，不能创建设置了headers 的Request 类实例；但是 urllib 提供 urlencode 方法用来GET查询字符串的产生，而 urllib2 则没有。（这是 urllib 和 urllib2 经常一起使用的主要原因）编码工作使用urllib的urle 阅读全文

posted @ 2017-08-20 22:55 AlamZ 阅读(241) 评论(0) 推荐(0)

HTTPS请求 SSL证书验证

摘要：运行结果： urllib2.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:590)> 所以，如果以后遇到这种网站，我们需要单独处理SSL证书，让程序忽略SSL证书阅读全文

posted @ 2017-08-20 22:42 AlamZ 阅读(974) 评论(0) 推荐(0)

Sublime 正则替换方法

摘要：阅读全文

posted @ 2017-08-19 22:11 AlamZ 阅读(309) 评论(0) 推荐(0)

python requests.exceptions.ConnectionError

摘要：今天遇到一个奇葩问题, 1.r.request.post(url) 2..print r. status_code 居然第一步就报错了,原因是url不正确,按道理应该可以走到第二步然后输入404的这样就可以异常设置值得到r,即使不是response类型,也能获取值 getattr(result, 阅读全文

posted @ 2017-08-17 16:48 AlamZ 阅读(11112) 评论(0) 推荐(0)

AlamZ

08 2017 档案

公告