随笔 - 204,  文章 - 0,  评论 - 19,  阅读 - 49万

随笔分类 -  spider

use python to spider something
爬虫神器——异步爬虫
摘要:一、背景 有一个项目需要使用到爬虫,因此去Google上搜索了一下,发现除了requests,scrapy,多线程,多进程以外,还有一种方法异步爬虫。使用aiohttp+async来进行网站的爬取。 二、使用 通过以下的指令安装 # 通过指令安装aiohttp pip install aiohttp 阅读全文
posted @ 2020-07-20 20:49 蔚蓝色の天空 阅读(552) 评论(0) 推荐(0) 编辑
python调用js代码解决Google翻译中的tk参数
摘要:一、背景 因为这次需要用到一下Google翻译,对英文翻译成中文,通过对Google翻译的分析,发现Google翻译里面有一个很重要参数tk。这个参数在每次翻译之前都会重新生成,只有校验通过了才可以将翻译的结果返回。而这个参数是使用js来生成了的。 二、解决 通过查阅相关的资料,在国外大佬的个人博客 阅读全文
posted @ 2020-04-11 20:59 蔚蓝色の天空 阅读(710) 评论(0) 推荐(0) 编辑
selenium登录爬取知乎出现:请求异常请升级客户端后重试的问题(用Python中的selenium接管chrome)
摘要:一、问题使用selenium自动化测试爬取知乎的时候出现了:错误代码10001:请求异常请升级客户端后重新尝试,这个错误的产生是由于知乎可以检测selenium自动化测试的脚本,因此可以阻止selenium的继续访问。这也算是比较高级的反爬取措施。二、解决解决方法,使用自己打开的一个浏览器,再用se 阅读全文
posted @ 2019-06-30 11:23 蔚蓝色の天空 阅读(6236) 评论(5) 推荐(0) 编辑
Scrapy学习之路(一)————环境配置
摘要:一、问题环境安装 首先scrapy这个爬虫框架是基于twisted完成的因此,在安装scrapy之前需要安装twisted。否则直接安装scrapy就会直接出错:Failed building wheel for twisted。 二、解决首先下载twisted的.whl文件,也包括其他的包可以下载 阅读全文
posted @ 2019-04-02 21:20 蔚蓝色の天空 阅读(185) 评论(0) 推荐(0) 编辑
爬取QQ音乐(讲解爬虫思路)
摘要:一、问题描述: 本次爬取的对象是QQmusic,为自己后面做django音乐网站的开发获取一些资源。 二、问题分析: 由于QQmusic和网易音乐的方式差不多,都是讲歌曲信息放入到播放界面播放,在其他界面没有media的资源,喜马拉雅的则不是这样的,可以参考我爬取喜马拉雅的blog与代码:https 阅读全文
posted @ 2019-03-24 23:16 蔚蓝色の天空 阅读(9386) 评论(0) 推荐(0) 编辑
selenium实现淘宝的商品爬取
摘要:一、问题 本次利用selenium自动化测试,完成对淘宝的爬取,这样可以避免一些反爬的措施,也是一种爬虫常用的手段。本次实战的难点: 1.如何利用selenium绕过淘宝的登录界面 2.获取淘宝的页面内容实现翻页,并判断是否翻页成功。 3.获取每一页的信息,实现数据的抓取工作。 4.环境python 阅读全文
posted @ 2019-03-19 12:19 蔚蓝色の天空 阅读(1352) 评论(0) 推荐(1) 编辑
爬取中国福彩网并做可视化分析
摘要:一、问题: 利用python的matplotlib和requestss两个库对中奖号码进行可视化分析。经过分析可以知道中奖号码为红色和蓝色两种,数据是以json进行存储。 二、方法: 1.首先:matplotlibh和request库的安装,【pip install --upgrade matplo 阅读全文
posted @ 2019-03-18 21:45 蔚蓝色の天空 阅读(892) 评论(0) 推荐(0) 编辑
xpath获取一个标签下的多个同级标签
摘要:一、问题: 我在使用xpath获取文章内容的时候会遇到,多个相同的标签在同一级下面,但是我们只需要获取一部分的内容。比如我不想需要原标题这些内容。 二、解决: Xpath中有一个position()的函数,通过这个函数我可以获取到我想要的内容。 通过标签的位置我们就可以查询到我们所需要获取的内容。 阅读全文
posted @ 2019-03-13 17:23 蔚蓝色の天空 阅读(7176) 评论(0) 推荐(0) 编辑
Xpath在选择器中正确,在代码中返回的是空列表问题
摘要:一、问题: 在进行爬虫的时候我们会用到xpath解析html文件,但是会有一种情况就是在xpath选择器中可以使用,但是在代码中就无法使用的情况。 二、原因: 1.是元素中有tbody的原因,这个元素是html生成时产生的,在使用xpath解析的时候无法解析,因此返回的列表为空值。 2.是因为没有写 阅读全文
posted @ 2019-03-01 19:10 蔚蓝色の天空 阅读(10473) 评论(0) 推荐(0) 编辑
爬虫爬取实例与乱码的处理
摘要:爬虫的实战例子: 1.百度图片: 百度图片是ajax的数据,其中gsm是十六进制的 2.梨视频: 梨视频的参数filter不需要直接请求其他的参数3.搜狐科技: 获取搜狐科技的内容4.QQmusic的爬取: 获取QQmusic歌单里面的所有歌曲5.淘宝实战: selenium抓取淘宝的图片 6.彩票 阅读全文
posted @ 2019-02-23 21:22 蔚蓝色の天空 阅读(901) 评论(0) 推荐(0) 编辑
类+进程池的方法爬取喜马拉雅
摘要:python是一门面向对象的语言,那么我们在写爬虫的时候自然也可以用到类的封装来实现爬虫。 一、类的使用 首先是对类的封装,可以将一些请求头写入构造函数当中(因为后面有进程池使用,所以构造函数不需要带参数,如果带上在后面的进程池中,也会报错)。 二、Ajax数据处理 喜马拉雅的音乐也是采用Ajax的 阅读全文
posted @ 2019-02-01 23:58 蔚蓝色の天空 阅读(1214) 评论(0) 推荐(0) 编辑
Ajax的爬取心得
摘要:一、查找到js的网址 在我们做爬虫的时候,如何判断一个数据是Ajax(asynchronous JavaScript And Xml,异步的JavaScript和Xml), 首先是数据的加载,在请求网页的URL一般不会改变,通过开发者工具进行如何下勾选。 就可以在下面中看到来源,通过查看js文件或者 阅读全文
posted @ 2019-01-28 15:57 蔚蓝色の天空 阅读(169) 评论(0) 推荐(0) 编辑
scrapy
摘要:how to chanage the file of scrapy to csv or json file, we used the commond that is "scrapy crawl 【parse_file_name】 -o 【filename】+ .json/.csv" Waring: 阅读全文
posted @ 2018-10-01 23:55 蔚蓝色の天空 阅读(128) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示