随笔分类 -  05.python爬虫学习

摘要:上一节使用scrapy成功提取到 https://imgbin.com/free-png/naruto/ 第一页所有图片的下载链接 本节在之前的基础上,实现如下2个功能: 1、提取前10页的图片下载链接 2、下载图片至本地 一、提取指定页数图片 网站向后翻页,链接的后缀会发生如下变化 https:/ 阅读全文
posted @ 2020-08-20 18:07 我是冰霜 阅读(1225) 评论(0) 推荐(1) 编辑
摘要:之前在写爬虫时,都是自己写整个爬取过程,例如向目标网站发起请求、解析网站、提取数据、下载数据等,需要自己定义这些实现方法等 这个周末把之前买的一个scrapy爬虫课程翻了出来(拉钩教育《52讲轻松搞定网络爬虫》,有兴趣的可以去看看),初步学习了一下scrapy的使用方法,刚好把以前写好的一个爬虫用s 阅读全文
posted @ 2020-08-16 18:27 我是冰霜 阅读(1170) 评论(0) 推荐(0) 编辑
摘要:前言 在刚开始学习python的时候,有看到过迭代器和生成器的相关内容,不过当时并未深入了解,更谈不上使用了 前两天在网上冲浪时,又看到了几篇关于生成器的文章,想到之前写的爬虫代码,其实是可以用生成器来改造一下的,所以本次就使用生成器来优化一下爬虫代码 关于python迭代器、生成器的知识,推荐几篇 阅读全文
posted @ 2020-06-06 21:26 我是冰霜 阅读(1060) 评论(0) 推荐(0) 编辑
摘要:背景 前段时间学习了python的多线程爬虫,当时爬取一个图片网站,开启多线程后,并没有限制线程的数量,也就是说,如果下载1000张图片,会一次性开启1000个子线程同时进行下载 现在希望控制线程数量:例如每次只下载5张,当下载完成后再下载另外5张,直至全部完成 查了一些资料,发现在python中, 阅读全文
posted @ 2020-05-30 11:09 我是冰霜 阅读(17564) 评论(0) 推荐(3) 编辑
摘要:前置说明 关于python多线程和多进程的说明,请参考如下: https://zhuanlan.zhihu.com/p/46368084 (一位知乎用户) https://www.liaoxuefeng.com/wiki/1016959663602400/1017628290184064 (廖雪峰) 阅读全文
posted @ 2020-04-24 17:29 我是冰霜 阅读(3210) 评论(0) 推荐(0) 编辑
摘要:本次借助wxPython编写一个网易云音乐的爬虫程序,能够根据一个歌单链接下载其下的所有音乐 前置说明 网易云音乐提供了一个下载接口:http://music.163.com/song/media/outer/url?id=xxx 所以只需要拿到歌单中每首歌曲对应的 id 即可 1.分析歌单网页元素 阅读全文
posted @ 2020-03-08 12:21 我是冰霜 阅读(1394) 评论(0) 推荐(0) 编辑
摘要:上篇获取到了每一集的下载url,这篇就用获取到的url下载视频 在下载文件时希望可以给出进度条之类的提示,在网上搜索了一波,发现有一个库可以实现:tqdm库,具体用法参考这篇博客:https://www.jianshu.com/p/1ed2a8b2c77b 在原来的类下面,再加一个方法,用来下载文件 阅读全文
posted @ 2020-02-18 11:41 我是冰霜 阅读(655) 评论(0) 推荐(0) 编辑
摘要:春节前想看一部美剧,可惜在爱奇艺、腾讯视频上都没有资源,然后找呀找,发现了一个网站“80s手机电影网”,在这上面可以找到我想看的那部剧,不过当时还没放假,就想着白天下载好,周末再一口气看完 所以就有了一个想法:这次不用迅雷下载,看看能不能爬虫下来 OK,想到就做 1. 分析网站 网站首页如下 (1) 阅读全文
posted @ 2020-02-12 18:10 我是冰霜 阅读(981) 评论(0) 推荐(0) 编辑
摘要:整体思路和之前的一篇博客爬虫豆瓣美女一致,这次加入了图片分类,同时利用tkinter模块做成GUI程序 效果如下: 整体代码如下: 关键点: 1.如何使用tkinter调用系统路径 2.构造url,参数化图片分类、抓取页数 3.使用tkinter获取输入参数传给执行代码 下面是练习的时候写的简陋版, 阅读全文
posted @ 2019-07-20 11:16 我是冰霜 阅读(8485) 评论(4) 推荐(3) 编辑
摘要:还是以猫眼电影为例,这次用pyquery库进行爬取 1.简单demo,看看如何使用pyquery提取信息,并将提取到的数据进行组合 2.正式代码 其实就这个例子来说,使用pyquery来提取信息是最简单省事的了,直接使用css选择器就可以把想要的数据拿到 阅读全文
posted @ 2018-06-27 21:22 我是冰霜 阅读(915) 评论(0) 推荐(0) 编辑
摘要:上一篇通过requests+正则爬取了猫眼电影榜单,这次通过requests+beautifulsoup再爬取一次(其实这个网站更适合使用beautifulsoup库爬取) 1.先分析网页源码 可以看出每部电影信息都包含在一堆<dd>...</dd>标签中,所以第一步可以通过beautifulsou 阅读全文
posted @ 2018-06-26 18:48 我是冰霜 阅读(1130) 评论(0) 推荐(0) 编辑
摘要:前面讲了如何通过pymysql操作数据库,这次写一个爬虫来提取信息,并将数据存储到mysql数据库 1.爬取目标 爬取猫眼电影TOP100榜单 要提取的信息包括:电影排名、电影名称、上映时间、分数 2.分析网页HTML源码 可以看到每部电影信息都被包裹在一对<dd>...</dd& 阅读全文
posted @ 2018-06-23 17:13 我是冰霜 阅读(1957) 评论(0) 推荐(0) 编辑
摘要:这里主要说一下贪婪匹配和非贪婪匹配 贪婪匹配:匹配尽可能多的字符; 非贪婪匹配:匹配尽可能少的字符 python的正则匹配默认是贪婪匹配 例子: >>> re.match(r'^(\w+)(\d*)$','abc123').groups() ('abc123', '') >>> re.match(r 阅读全文
posted @ 2018-06-18 15:03 我是冰霜 阅读(526) 评论(0) 推荐(0) 编辑
摘要:这一节主要学习一下compile()函数和group()方法 1. re.compile() compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,然后就可以用编译后的正则表达式去匹配字符串 语法如下:>>> help(re.compile) Help on func 阅读全文
posted @ 2018-06-07 22:40 我是冰霜 阅读(1866) 评论(0) 推荐(1) 编辑
摘要:在python中通过内置的re库来使用正则表达式,它提供了所有正则表达式的功能。 一.写在前面:关于转义的问题 正则表达式中用“\”表示转义,而python中也用“\”表示转义,当遇到特殊字符需要转义时,你要花费心思到底需要几个“\”,所以为了避免这个情况,墙裂推荐使用原生字符串类型(raw str 阅读全文
posted @ 2018-06-06 23:45 我是冰霜 阅读(59009) 评论(2) 推荐(14) 编辑
摘要:第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码 打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果 从url连接中可以得到搜索商品的关键字是“q=”,所以我们要用的起始url为:https://s.taobao.com/search?q=p 阅读全文
posted @ 2018-04-08 23:10 我是冰霜 阅读(17708) 评论(2) 推荐(1) 编辑
摘要:在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: 可以看到每个t对象的类型是bs4.element.Tag,也就是标签对象。 那么,如果要从每个t对象中获取a标签的内容,并把所有a标签都保存到一个列表中,该如何做? 可以使用: 接下来就可以正式编写爬 阅读全文
posted @ 2018-04-06 11:35 我是冰霜 阅读(6599) 评论(1) 推荐(2) 编辑
摘要:最近在看爬虫相关的东西,一方面是兴趣,另一方面也是借学习爬虫练习python的使用,推荐一个很好的入门教程:中国大学MOOC的《python网络爬虫与信息提取》,是由北京理工的副教授嵩天老师讲的,感觉讲的很清晰,课件也很详细。 学习爬虫,怎么也绕不开requests库和BeautifulSoup库, 阅读全文
posted @ 2018-04-05 22:00 我是冰霜 阅读(103349) 评论(10) 推荐(34) 编辑