11 2017 档案
摘要:本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考: "Python学习指南" 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了。 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/li
阅读全文
摘要:Requests:让HTTP服务人类 虽然Python的标准库中urllib2模块中已经包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太好,而Requests自称"HTTP for Humans",说明使用更简单方便。 Requests唯一的一个非转基因的Python HTTP库,
阅读全文
摘要:urllib2的异常错误处理 在我们用 方法发出一个请求时,如果 不能处理这个response,就产生错误。 这里主要说的是URLError和HTTPError,以及对它们的错误处理。 URLError URLError产生的原因主要有: 1. 没有网络连接 2. 服务器链接失败 3. 找不到指定的
阅读全文
摘要:本文将介绍handler处理器和自定义opener,更多内容请参考: "python学习指南" opener和handleer 1. 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页,它是一个特殊的opener(也就是模块帮我们建好的),opener是urllib2.O
阅读全文
摘要:本篇将介绍urllib2的Get和Post方法,更多内容请参考: "python学习指南" urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib和urllib2都是接受URL请求的相关参数,但是提供了不同的功能。两个最显著的不同如下:
阅读全文
摘要:本篇我们将开始学习如何进行网页抓取,更多内容请参考: "python学习指南" urllib2库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习 。 urllib2是Python2.x自带的模块(不需要下载
阅读全文
摘要:本篇将开始介绍Python原理,更多内容请参考: "Python学习指南" 为什么要做爬虫 著名的革命家、思想家、政治家、战略家、社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT即数据技术,由数据在推倒人们的衣食住行,当今时代是一个 ,数据从何而来? + : "百度指数"
阅读全文
摘要:HTTP和HTTPS HTTP(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收HTML页面的方法 HTTPS(HyperText Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加
阅读全文
摘要:本篇将介绍Python的迭代,更多内容请参考: "Python学习指南" 简介 在Python中,如果给定一个list或者tuple,我们可以通过 来遍历这个list或者tuple,这种遍历我们称为 (Iteration) 在Python中,迭代是 来完成的,而很多语言比如C或者Java,迭代lis
阅读全文
摘要:本篇将介绍python正则表达式,更多内容请参考: "【python正则表达式】" 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”
阅读全文
摘要:本篇将介绍Python的列表生成式,更多内容请参考: "Python学习指南" 列表生成式即List Comprehensions,是Python内置的非常简单却强大的可以用来创建list的生成式。 举个例子,要生成list 可以用 但是要生成 怎么做?方法一是循环: 但是循环太繁琐,而列表生成式则
阅读全文
摘要:本篇将介绍Python的迭代,更多内容请参考: "Python学习指南" 简介 在Python中,如果给定一个list或者tuple,我们可以通过 来遍历这个list或者tuple,这种遍历我们称为 (Iteration) 在Python中,迭代是 来完成的,而很多语言比如C或者Java,迭代lis
阅读全文
摘要:本篇将介绍Python的切片操作,切片支持的数据类型有列表、字符串、元祖,更多内容请参考: "Python学习指南" 切片是什么? 切片操作符是序列名后跟一个方括号,方括号中有一对可选的数字,并用冒号分隔。注意这与你使用的索引操作符十分相似。记住数是可选的,而冒号是必须的。切片分隔符中的第一个数(冒
阅读全文
摘要:本篇将介绍Python里面的字典,更多内容请参考: "Python学习指南" Python是什么? Python内置了字典 的支持,dict全称dictionary,在其他语言中也称为map,使用键 值对(key value)存储,具有极快的查找速度。 举个例子,假设要根据同学的名字查找对应的成绩,
阅读全文

浙公网安备 33010602011771号