09 2019 档案
摘要:urllib库是python中最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送请求,并可以保存服务器返回的数据。 urlopen() urllib.request模块提供了最基本的构造http请求的方法。利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理授权验证(authentic
阅读全文
摘要:什么是http和https协议 http协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接受HTML页面的方法,服务器端口号是80端口。 https协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443端口。 在浏览
阅读全文
摘要:爬虫基础 爬虫前奏 http协议 urllib库 持续更新
阅读全文
摘要:爬虫的实际例子 什么是爬虫 1. 通俗理解,爬虫是模拟人请求网站的程序。可以自动请求网页,并将数据抓取下来,然后使用一定的规则提取有价值的数据。 2. 专业介绍:百度百科 通用爬虫和聚焦爬虫 1. 通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互
阅读全文
摘要:Scrapy 框架的介绍 Scrapy 是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,其架构清晰模块之间的耦合成都低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 1. 架构介绍 它可以分为如下几个部分。 Engine 引擎,处理整
阅读全文