摘要: Requests: 让 HTTP 服务人类 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py 阅读全文
posted @ 2019-08-05 23:31 Paco_Pig 阅读(423) 评论(0) 推荐(0) 编辑
摘要: 一、urllib2库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) urllib2 官方文档:https: 阅读全文
posted @ 2019-08-05 23:20 Paco_Pig 阅读(955) 评论(0) 推荐(0) 编辑
摘要: 一、通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine) 阅读全文
posted @ 2019-08-05 22:47 Paco_Pig 阅读(663) 评论(0) 推荐(0) 编辑
摘要: 报错如下: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near '' at line 阅读全文
posted @ 2019-08-05 18:38 Paco_Pig 阅读(495) 评论(0) 推荐(0) 编辑