05.python爬虫学习 - 随笔分类 - 我是冰霜

scrapy爬虫笔记(2)：提取多页图片并下载至本地

摘要：上一节使用scrapy成功提取到 https://imgbin.com/free-png/naruto/ 第一页所有图片的下载链接本节在之前的基础上，实现如下2个功能： 1、提取前10页的图片下载链接 2、下载图片至本地一、提取指定页数图片网站向后翻页，链接的后缀会发生如下变化 https:/ 阅读全文

posted @ 2020-08-20 18:07 我是冰霜阅读(1225) 评论(0) 推荐(1) 编辑

scrapy爬虫笔记(1)：提取首页图片下载链接

摘要：之前在写爬虫时，都是自己写整个爬取过程，例如向目标网站发起请求、解析网站、提取数据、下载数据等，需要自己定义这些实现方法等这个周末把之前买的一个scrapy爬虫课程翻了出来(拉钩教育《52讲轻松搞定网络爬虫》，有兴趣的可以去看看)，初步学习了一下scrapy的使用方法，刚好把以前写好的一个爬虫用s 阅读全文

posted @ 2020-08-16 18:27 我是冰霜阅读(1170) 评论(0) 推荐(0) 编辑

python爬虫代码优化：使用生成器重构提取数据方法

摘要：前言在刚开始学习python的时候，有看到过迭代器和生成器的相关内容，不过当时并未深入了解，更谈不上使用了前两天在网上冲浪时，又看到了几篇关于生成器的文章，想到之前写的爬虫代码，其实是可以用生成器来改造一下的，所以本次就使用生成器来优化一下爬虫代码关于python迭代器、生成器的知识，推荐几篇阅读全文

posted @ 2020-06-06 21:26 我是冰霜阅读(1060) 评论(0) 推荐(0) 编辑

python多线程：控制线程数量

摘要：背景前段时间学习了python的多线程爬虫，当时爬取一个图片网站，开启多线程后，并没有限制线程的数量，也就是说，如果下载1000张图片，会一次性开启1000个子线程同时进行下载现在希望控制线程数量：例如每次只下载5张，当下载完成后再下载另外5张，直至全部完成查了一些资料，发现在python中，阅读全文

posted @ 2020-05-30 11:09 我是冰霜阅读(17564) 评论(0) 推荐(3) 编辑

多线程or多进程爬虫案例

摘要：前置说明关于python多线程和多进程的说明，请参考如下： https://zhuanlan.zhihu.com/p/46368084 (一位知乎用户) https://www.liaoxuefeng.com/wiki/1016959663602400/1017628290184064 （廖雪峰）阅读全文

posted @ 2020-04-24 17:29 我是冰霜阅读(3210) 评论(0) 推荐(0) 编辑

使用wxpython编写一个网易云音乐爬虫程序

摘要：本次借助wxPython编写一个网易云音乐的爬虫程序，能够根据一个歌单链接下载其下的所有音乐前置说明网易云音乐提供了一个下载接口：http://music.163.com/song/media/outer/url?id=xxx 所以只需要拿到歌单中每首歌曲对应的 id 即可 1.分析歌单网页元素阅读全文

posted @ 2020-03-08 12:21 我是冰霜阅读(1394) 评论(0) 推荐(0) 编辑

简单爬虫一部美剧（二：下载进度条）

摘要：上篇获取到了每一集的下载url，这篇就用获取到的url下载视频在下载文件时希望可以给出进度条之类的提示，在网上搜索了一波，发现有一个库可以实现：tqdm库，具体用法参考这篇博客：https://www.jianshu.com/p/1ed2a8b2c77b 在原来的类下面，再加一个方法，用来下载文件阅读全文

posted @ 2020-02-18 11:41 我是冰霜阅读(655) 评论(0) 推荐(0) 编辑

简单爬虫一部美剧（一）

摘要：春节前想看一部美剧，可惜在爱奇艺、腾讯视频上都没有资源，然后找呀找，发现了一个网站“80s手机电影网”，在这上面可以找到我想看的那部剧，不过当时还没放假，就想着白天下载好，周末再一口气看完所以就有了一个想法：这次不用迅雷下载，看看能不能爬虫下来 OK，想到就做 1. 分析网站网站首页如下（1）阅读全文

posted @ 2020-02-12 18:10 我是冰霜阅读(981) 评论(0) 推荐(0) 编辑

使用python做一个爬虫GUI程序

摘要：整体思路和之前的一篇博客爬虫豆瓣美女一致，这次加入了图片分类，同时利用tkinter模块做成GUI程序效果如下：整体代码如下：关键点： 1.如何使用tkinter调用系统路径 2.构造url，参数化图片分类、抓取页数 3.使用tkinter获取输入参数传给执行代码下面是练习的时候写的简陋版，阅读全文

posted @ 2019-07-20 11:16 我是冰霜阅读(8485) 评论(4) 推荐(3) 编辑

猫眼电影爬取(三)：requests+pyquery，并将数据存储到mysql数据库

摘要：还是以猫眼电影为例，这次用pyquery库进行爬取 1.简单demo，看看如何使用pyquery提取信息，并将提取到的数据进行组合 2.正式代码其实就这个例子来说，使用pyquery来提取信息是最简单省事的了，直接使用css选择器就可以把想要的数据拿到阅读全文

posted @ 2018-06-27 21:22 我是冰霜阅读(915) 评论(0) 推荐(0) 编辑

猫眼电影爬取(二)：requests+beautifulsoup，并将数据存储到mysql数据库

摘要：上一篇通过requests+正则爬取了猫眼电影榜单，这次通过requests+beautifulsoup再爬取一次(其实这个网站更适合使用beautifulsoup库爬取) 1.先分析网页源码可以看出每部电影信息都包含在一堆<dd>...</dd>标签中，所以第一步可以通过beautifulsou 阅读全文

posted @ 2018-06-26 18:48 我是冰霜阅读(1130) 评论(0) 推荐(0) 编辑

猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库

摘要：前面讲了如何通过pymysql操作数据库，这次写一个爬虫来提取信息，并将数据存储到mysql数据库 1.爬取目标爬取猫眼电影TOP100榜单要提取的信息包括：电影排名、电影名称、上映时间、分数 2.分析网页HTML源码可以看到每部电影信息都被包裹在一对<dd>...</dd& 阅读全文

posted @ 2018-06-23 17:13 我是冰霜阅读(1957) 评论(0) 推荐(0) 编辑

在python中使用正则表达式(三)

摘要：这里主要说一下贪婪匹配和非贪婪匹配贪婪匹配：匹配尽可能多的字符；非贪婪匹配：匹配尽可能少的字符 python的正则匹配默认是贪婪匹配例子： >>> re.match(r'^(\w+)(\d*)$','abc123').groups() ('abc123', '') >>> re.match(r 阅读全文

posted @ 2018-06-18 15:03 我是冰霜阅读(526) 评论(0) 推荐(0) 编辑

在python中使用正则表达式(二)

摘要：这一节主要学习一下compile()函数和group()方法 1. re.compile() compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，然后就可以用编译后的正则表达式去匹配字符串语法如下：>>> help(re.compile) Help on func 阅读全文

posted @ 2018-06-07 22:40 我是冰霜阅读(1866) 评论(0) 推荐(1) 编辑

在python中使用正则表达式(一)

摘要：在python中通过内置的re库来使用正则表达式，它提供了所有正则表达式的功能。一.写在前面：关于转义的问题正则表达式中用“\”表示转义，而python中也用“\”表示转义，当遇到特殊字符需要转义时，你要花费心思到底需要几个“\”，所以为了避免这个情况，墙裂推荐使用原生字符串类型(raw str 阅读全文

posted @ 2018-06-06 23:45 我是冰霜阅读(59009) 评论(2) 推荐(14) 编辑

python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件

摘要：第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息（1）分析网页源码打开淘宝，输入关键字“python”，然后搜索，显示如下搜索结果从url连接中可以得到搜索商品的关键字是“q=”，所以我们要用的起始url为：https://s.taobao.com/search?q=p 阅读全文

posted @ 2018-04-08 23:10 我是冰霜阅读(17708) 评论(2) 推荐(1) 编辑

python爬虫学习(二)：定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018"，并把结果写进txt文件

摘要：在正式爬取之前，先做一个试验，看一下爬取的数据对象的类型是如何转换为列表的：写一个html文档: 可以看到每个t对象的类型是bs4.element.Tag，也就是标签对象。那么，如果要从每个t对象中获取a标签的内容，并把所有a标签都保存到一个列表中，该如何做? 可以使用：接下来就可以正式编写爬阅读全文

posted @ 2018-04-06 11:35 我是冰霜阅读(6599) 评论(1) 推荐(2) 编辑

python爬虫学习(一)：BeautifulSoup库基础及一般元素提取方法

摘要：最近在看爬虫相关的东西，一方面是兴趣，另一方面也是借学习爬虫练习python的使用，推荐一个很好的入门教程：中国大学MOOC的《python网络爬虫与信息提取》，是由北京理工的副教授嵩天老师讲的，感觉讲的很清晰，课件也很详细。学习爬虫，怎么也绕不开requests库和BeautifulSoup库，阅读全文

posted @ 2018-04-05 22:00 我是冰霜阅读(103349) 评论(10) 推荐(34) 编辑

我是冰霜

I am just a sunflower, waiting for my only sunshine.

随笔分类 - 05.python爬虫学习

公告