摘要:
本文将介绍handler处理器和自定义opener,更多内容请参考: "python学习指南" opener和handleer 1. 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页,它是一个特殊的opener(也就是模块帮我们建好的),opener是urllib2.O 阅读全文
摘要:
本篇将介绍urllib2的Get和Post方法,更多内容请参考: "python学习指南" urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib和urllib2都是接受URL请求的相关参数,但是提供了不同的功能。两个最显著的不同如下: 阅读全文
摘要:
本篇我们将开始学习如何进行网页抓取,更多内容请参考: "python学习指南" urllib2库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习 。 urllib2是Python2.x自带的模块(不需要下载 阅读全文
摘要:
本篇将开始介绍Python原理,更多内容请参考: "Python学习指南" 为什么要做爬虫 著名的革命家、思想家、政治家、战略家、社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT即数据技术,由数据在推倒人们的衣食住行,当今时代是一个 ,数据从何而来? + : "百度指数" 阅读全文
摘要:
HTTP和HTTPS HTTP(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收HTML页面的方法 HTTPS(HyperText Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加 阅读全文