摘要: 官方文档地址:https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块 阅读全文
posted @ 2019-04-30 19:19 帅某人是也 阅读(480) 评论(0) 推荐(0) 编辑
摘要: 在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程 爬虫的基本流程 发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应 获取响应内容如果服务器能正常响应,会 阅读全文
posted @ 2019-04-30 19:14 帅某人是也 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 整理这番外篇的原因是希望能够让爬虫的朋友更加理解这块内容,因为爬虫爬取数据可能很简单,但是如何高效持久的爬,利用进程,线程,以及异步IO,其实很多人和我一样,故整理此系列番外篇 一、进程 程序并不能单独和运行只有将程序装载到内存中,系统为他分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的 阅读全文
posted @ 2019-04-30 19:11 帅某人是也 阅读(201) 评论(0) 推荐(0) 编辑
摘要: Python的WEB框架 Bottle Bottle是一个快速、简洁、轻量级的基于WSIG的微型Web框架,此框架只由一个 .py 文件,除了Python的标准库外,其不依赖任何其他模块。 Bottle框架大致可以分为以下部分: 路由系统,将不同请求交由指定函数处理 模板系统,将模板中的特殊语法渲染 阅读全文
posted @ 2019-04-30 09:34 帅某人是也 阅读(549) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 Requests Python标准库中提供了:urllib、urllib2、httplib等模 阅读全文
posted @ 2019-04-30 09:05 帅某人是也 阅读(457) 评论(0) 推荐(0) 编辑