随笔分类 - Python爬虫
摘要:[toc] 在正则表达式中,有时候需要匹配一些特殊的字符,例如: ,这样的字符就需要使用反斜杠进行转义后才能匹配到。以下是一个小案例说明: 输出结果:$33 1.原生字符串 在Python中,转义字符是 ,在正则表达式中的转义字符也是 ,所以要想在普通字符中匹配出 ,需要使用4个 以下是一个匹配出
阅读全文
摘要:[toc] 1. (脱字号):表示以...开始 打印结果:ab ==如果在中括号中,则代表取反操作。== 2. :表示以...结束 下面代码中的 表示以.com结尾 打印结果:qinys@126.com 3. :匹配多个表达式或字符串 4.贪婪与非贪婪模式 贪婪模式:在整个表达式匹配成功的前提下,尽
阅读全文
摘要:[toc] 1.什么是正则表达式? 通俗解释:按照某个规则,从某个字符串中匹配出想要的数据。 官方解释:正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 2.匹配单个字符(常用) 2.1 匹配某个字符串 匹配某个字符串,指定一个字符,如 ,从 中匹配 打印结果:he
阅读全文
摘要:[toc] 1.网页分析 庚子年初,各种大事件不期而至,又赶上最近气温突变,所以写个爬虫来爬取下中国天气网,并通过图表反映气温最低的前20个城市。 中国天气网:http://www.weather.com.cn/textFC/hb.shtml 打开后如下图: 从图中可以看到所有城市按照地区划分了,并
阅读全文
摘要:[toc] Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag NavigableString BeautifulSoup Comment 上面4种对象均可以通过以下语法查看详细的源码 1.Tag Tag通俗来讲就是
阅读全文
摘要:[toc] 1.常用CSS选择器介绍 以下是一个包含常用类选择器的案例,在案例后有具体的选择器使用介绍 1.1 标签选择器 根据标签的名字选择。示例代码如下: 1.2 类名选择器 根据类名选择,那么需要在类名前加一个点。示例代码如下: 1.3 id选择器 根据id选择,那么需要在id的前面加一个 号
阅读全文
摘要:[toc] 在下面的内容中引用了前程无忧网的部分源码进行案例演示,以下全部都是以实战案例来对BeautifulSoup4库提取数据进行解析。 前程无忧网部分源码:(在下述代码中将使用 代表以下代码) 1.获取所有的p标签 上述代码中输出的p是一个tag类型,但是from bs4.element im
阅读全文
摘要:[toc] 1.简介 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大
阅读全文
摘要:[toc] 1.需求描述 爬取hao6v电影网的数据,先通过xpath解析第一个页面,获取到每部电影的url详情页地址,然后解析详情页地址,获取出所需的数据 页面如下: 2.实现代码 运行结果如下:
阅读全文
摘要:[toc] 1.下载XPath Helper 链接:https://pan.baidu.com/s/1ZWxsxauHaBSkK2ItjhPNwQ 提取码:9yg2 2.解压与安装 2.1 解压 先解压xpath helper.rar,下载后的压缩包如下图: 解压后即可得到文件:xpath help
阅读全文
摘要:[toc] 1.需求描述 爬取豆瓣即将上映的电影信息,如下图,地址: 需要将每部电影的【名称、地区、时长、导演、主演】等信息爬取下来,以下是具体实现代码。 2.实现代码 代码运行结果截图:
阅读全文
摘要:[toc] 1.什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 2.XPath开发工具 Chrome插件XPath Helper(启动快捷键:ctrl + shift + x) F
阅读全文
摘要:[toc] 虽然Python中的标准库urllib模块已经可以满足我们的大多数需求,但是它的API使用起来让人感觉不是很好,而requests宣传是 ,说明使用更简洁方便。 1.安装和文档地址 安装 文档地址 中文文档:https://cn.python requests.org/zh_CN/lat
阅读全文
摘要:[toc] 1.什么是cookie? 在网站中,http的请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题,第一次登陆服务器返回一些数据(cookie)给浏览器,然后浏览器保存到本地,当该用户第二次
阅读全文
摘要:[toc] 很多网站会监测一段时间内某个IP访问的次数(通过数据流量和日志等),如果访问的次数多的不像正常人,它就会把这个IP地址封了。所以我们就需要设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬。 常用的代理服务器: 西刺免费代理IP:https://www.x
阅读全文
摘要:[toc] 1.urllib库简介 库是Python中一个最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 2.urlopen函数 在 的urllib库中,所有和网络请求相关的方法,都被集成到 模块下了,下面是urlopen函数的基本使用: 上述代码
阅读全文
摘要:[toc] 1.什么是网络爬虫? 通俗理解:爬虫就是一个模拟人类请求网站行为的程序。可以自动请求网页,并将数据抓取下来,然后使用一定的规则提取有价值的数据。 2.爬虫的分类 通用网络爬虫 百度 谷歌 雅虎...搜索引擎 特点:关键字获取既定的目标,覆盖率很大 聚焦网络爬虫 特点:到互联网上有选择有目
阅读全文
摘要:需求说明 到网站http://lishi.tianqi.com/kunming/201802.html可以看到昆明2018年2月份的天气信息,然后将数据存储到数据库。 实现代码 运行上述程序后,在数据库查询结果如下:
阅读全文
摘要:上一节我们已经知道如何使用Fiddler进行抓包分析,那么接下来我们开始完成一个简单的小例子 抓取腾讯视频的评论内容 首先我们打开腾讯视频的官网https://v.qq.com/ 我们打开【电视剧】这一栏,找到一部比较精彩的电视剧爬取一下,例如:我们就爬取【下一站,别离】这部吧 我们找到这部电视剧的
阅读全文
摘要:我们要抓取一些网页源码看不到的信息,例如:淘宝的评论等 我们可以使用工具Fiddler进行抓取 软件下载地址:https://pan.baidu.com/s/1nPKPwrdfXM62LlTZsoiDsg 密码:wche 安装不详细介绍,直接下一步即可 安装完成后,运行程序如下: 设置代理打开火狐浏览器如下设置: Fiddler默认只能抓取HTTP协议的网页,不能抓取HTTPS协议的网页,而...
阅读全文