Python爬虫 - 随笔分类(第2页) - OLIVER_QIN

【Python3 爬虫】U17_正则表达式之转义字符和原生字符

摘要：[toc] 在正则表达式中，有时候需要匹配一些特殊的字符，例如：，这样的字符就需要使用反斜杠进行转义后才能匹配到。以下是一个小案例说明：输出结果：$33 1.原生字符串在Python中，转义字符是 ,在正则表达式中的转义字符也是，所以要想在普通字符中匹配出，需要使用4个以下是一个匹配出阅读全文

posted @ 2020-04-02 11:52 OLIVER_QIN 阅读(417) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U16_正则表达式之开始结束和或语法

摘要：[toc] 1. (脱字号):表示以...开始打印结果：ab ==如果在中括号中，则代表取反操作。== 2. :表示以...结束下面代码中的表示以.com结尾打印结果：qinys@126.com 3. :匹配多个表达式或字符串 4.贪婪与非贪婪模式贪婪模式：在整个表达式匹配成功的前提下，尽阅读全文

posted @ 2020-04-02 11:20 OLIVER_QIN 阅读(541) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U15_正则表达式

摘要：[toc] 1.什么是正则表达式？通俗解释：按照某个规则，从某个字符串中匹配出想要的数据。官方解释：正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。 2.匹配单个字符(常用) 2.1 匹配某个字符串匹配某个字符串，指定一个字符，如，从中匹配打印结果：he 阅读全文

posted @ 2020-04-01 10:39 OLIVER_QIN 阅读(302) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U14_爬取中国天气网

摘要：[toc] 1.网页分析庚子年初，各种大事件不期而至，又赶上最近气温突变，所以写个爬虫来爬取下中国天气网，并通过图表反映气温最低的前20个城市。中国天气网：http://www.weather.com.cn/textFC/hb.shtml 打开后如下图：从图中可以看到所有城市按照地区划分了，并阅读全文

posted @ 2020-03-31 18:06 OLIVER_QIN 阅读(408) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U13_BeautifulSoup4四大对象

摘要：[toc] Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag NavigableString BeautifulSoup Comment 上面4种对象均可以通过以下语法查看详细的源码 1.Tag Tag通俗来讲就是阅读全文

posted @ 2020-03-30 21:34 OLIVER_QIN 阅读(611) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U12_BeautifulSoup4之select和CCS选择器提取元素

摘要：[toc] 1.常用CSS选择器介绍以下是一个包含常用类选择器的案例，在案例后有具体的选择器使用介绍 1.1 标签选择器根据标签的名字选择。示例代码如下： 1.2 类名选择器根据类名选择，那么需要在类名前加一个点。示例代码如下： 1.3 id选择器根据id选择，那么需要在id的前面加一个号阅读全文

posted @ 2020-03-30 10:59 OLIVER_QIN 阅读(1025) 评论(0) 推荐(1) 编辑

【Python3 爬虫】U11_BeautifulSoup4库提取数据详解

摘要：[toc] 在下面的内容中引用了前程无忧网的部分源码进行案例演示，以下全部都是以实战案例来对BeautifulSoup4库提取数据进行解析。前程无忧网部分源码：(在下述代码中将使用代表以下代码) 1.获取所有的p标签上述代码中输出的p是一个tag类型，但是from bs4.element im 阅读全文

posted @ 2020-03-29 22:46 OLIVER_QIN 阅读(776) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U10_初识BeautifulSoup4库

摘要：[toc] 1.简介和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大阅读全文

posted @ 2020-03-29 20:13 OLIVER_QIN 阅读(291) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U09_爬取hao6v电影网

摘要：[toc] 1.需求描述爬取hao6v电影网的数据，先通过xpath解析第一个页面，获取到每部电影的url详情页地址，然后解析详情页地址，获取出所需的数据页面如下： 2.实现代码运行结果如下：阅读全文

posted @ 2020-03-28 21:30 OLIVER_QIN 阅读(4296) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U08_XPath Helper的安装与使用

摘要：[toc] 1.下载XPath Helper 链接：https://pan.baidu.com/s/1ZWxsxauHaBSkK2ItjhPNwQ 提取码：9yg2 2.解压与安装 2.1 解压先解压xpath helper.rar,下载后的压缩包如下图：解压后即可得到文件：xpath help 阅读全文

posted @ 2020-03-27 15:29 OLIVER_QIN 阅读(609) 评论(0) 推荐(1) 编辑

【Python3 爬虫】U07_爬取豆瓣即将上映的电影信息

摘要：[toc] 1.需求描述爬取豆瓣即将上映的电影信息，如下图，地址：需要将每部电影的【名称、地区、时长、导演、主演】等信息爬取下来，以下是具体实现代码。 2.实现代码代码运行结果截图：阅读全文

posted @ 2020-03-27 10:27 OLIVER_QIN 阅读(342) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U06_XPath语法和lxml模块

摘要：[toc] 1.什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。 2.XPath开发工具 Chrome插件XPath Helper(启动快捷键：ctrl + shift + x) F 阅读全文

posted @ 2020-03-26 22:06 OLIVER_QIN 阅读(313) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U05_requests库

摘要：[toc] 虽然Python中的标准库urllib模块已经可以满足我们的大多数需求，但是它的API使用起来让人感觉不是很好，而requests宣传是 ,说明使用更简洁方便。 1.安装和文档地址安装文档地址中文文档：https://cn.python requests.org/zh_CN/lat 阅读全文

posted @ 2020-03-26 14:05 OLIVER_QIN 阅读(313) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U04_cookie的使用

摘要：[toc] 1.什么是cookie? 在网站中，http的请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后，第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题，第一次登陆服务器返回一些数据(cookie)给浏览器，然后浏览器保存到本地，当该用户第二次阅读全文

posted @ 2020-03-25 22:19 OLIVER_QIN 阅读(457) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U03_ProxyHandler实现代理

摘要：[toc] 很多网站会监测一段时间内某个IP访问的次数（通过数据流量和日志等），如果访问的次数多的不像正常人，它就会把这个IP地址封了。所以我们就需要设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬。常用的代理服务器：西刺免费代理IP：https://www.x 阅读全文

posted @ 2020-03-25 18:32 OLIVER_QIN 阅读(362) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U02_urllib库

摘要：[toc] 1.urllib库简介库是Python中一个最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 2.urlopen函数在的urllib库中，所有和网络请求相关的方法，都被集成到模块下了，下面是urlopen函数的基本使用：上述代码阅读全文

posted @ 2020-03-25 11:08 OLIVER_QIN 阅读(362) 评论(0) 推荐(0) 编辑

【Python3 爬虫】U01_爬虫简介

摘要：[toc] 1.什么是网络爬虫？通俗理解：爬虫就是一个模拟人类请求网站行为的程序。可以自动请求网页，并将数据抓取下来，然后使用一定的规则提取有价值的数据。 2.爬虫的分类通用网络爬虫百度谷歌雅虎...搜索引擎特点：关键字获取既定的目标，覆盖率很大聚焦网络爬虫特点：到互联网上有选择有目阅读全文

posted @ 2020-03-24 23:13 OLIVER_QIN 阅读(459) 评论(0) 推荐(0) 编辑

【Python3 爬虫】17_爬取天气信息

摘要：需求说明到网站http://lishi.tianqi.com/kunming/201802.html可以看到昆明2018年2月份的天气信息，然后将数据存储到数据库。实现代码运行上述程序后，在数据库查询结果如下：阅读全文

posted @ 2018-05-01 13:54 OLIVER_QIN 阅读(1916) 评论(1) 推荐(0) 编辑

【Python3 爬虫】16_抓取腾讯视频评论内容

摘要：上一节我们已经知道如何使用Fiddler进行抓包分析，那么接下来我们开始完成一个简单的小例子抓取腾讯视频的评论内容首先我们打开腾讯视频的官网https://v.qq.com/ 我们打开【电视剧】这一栏，找到一部比较精彩的电视剧爬取一下，例如：我们就爬取【下一站，别离】这部吧我们找到这部电视剧的阅读全文

posted @ 2018-04-26 12:37 OLIVER_QIN 阅读(1842) 评论(0) 推荐(0) 编辑

【Python3 爬虫】15_Fiddler抓包分析

摘要：我们要抓取一些网页源码看不到的信息，例如：淘宝的评论等我们可以使用工具Fiddler进行抓取软件下载地址：https://pan.baidu.com/s/1nPKPwrdfXM62LlTZsoiDsg 密码：wche 安装不详细介绍，直接下一步即可安装完成后,运行程序如下：设置代理打开火狐浏览器如下设置： Fiddler默认只能抓取HTTP协议的网页，不能抓取HTTPS协议的网页，而... 阅读全文

posted @ 2018-04-22 17:22 OLIVER_QIN 阅读(3340) 评论(0) 推荐(0) 编辑

随笔分类 - Python爬虫

公告