spider - 随笔分类 - 蔚蓝色の天空

爬虫神器——异步爬虫

摘要：一、背景有一个项目需要使用到爬虫，因此去Google上搜索了一下，发现除了requests，scrapy，多线程，多进程以外，还有一种方法异步爬虫。使用aiohttp+async来进行网站的爬取。二、使用通过以下的指令安装 # 通过指令安装aiohttp pip install aiohttp 阅读全文

posted @ 2020-07-20 20:49 蔚蓝色の天空阅读(574) 评论(0) 推荐(0)

python调用js代码解决Google翻译中的tk参数

摘要：一、背景因为这次需要用到一下Google翻译，对英文翻译成中文，通过对Google翻译的分析，发现Google翻译里面有一个很重要参数tk。这个参数在每次翻译之前都会重新生成，只有校验通过了才可以将翻译的结果返回。而这个参数是使用js来生成了的。二、解决通过查阅相关的资料，在国外大佬的个人博客阅读全文

posted @ 2020-04-11 20:59 蔚蓝色の天空阅读(738) 评论(0) 推荐(0)

selenium登录爬取知乎出现：请求异常请升级客户端后重试的问题(用Python中的selenium接管chrome)

摘要：一、问题使用selenium自动化测试爬取知乎的时候出现了：错误代码10001：请求异常请升级客户端后重新尝试，这个错误的产生是由于知乎可以检测selenium自动化测试的脚本，因此可以阻止selenium的继续访问。这也算是比较高级的反爬取措施。二、解决解决方法，使用自己打开的一个浏览器，再用se 阅读全文

posted @ 2019-06-30 11:23 蔚蓝色の天空阅读(6460) 评论(5) 推荐(0)

Scrapy学习之路（一）————环境配置

摘要：一、问题环境安装首先scrapy这个爬虫框架是基于twisted完成的因此，在安装scrapy之前需要安装twisted。否则直接安装scrapy就会直接出错：Failed building wheel for twisted。二、解决首先下载twisted的.whl文件，也包括其他的包可以下载阅读全文

posted @ 2019-04-02 21:20 蔚蓝色の天空阅读(198) 评论(0) 推荐(0)

爬取QQ音乐(讲解爬虫思路)

摘要：一、问题描述：本次爬取的对象是QQmusic，为自己后面做django音乐网站的开发获取一些资源。二、问题分析：由于QQmusic和网易音乐的方式差不多，都是讲歌曲信息放入到播放界面播放，在其他界面没有media的资源，喜马拉雅的则不是这样的，可以参考我爬取喜马拉雅的blog与代码：https 阅读全文

posted @ 2019-03-24 23:16 蔚蓝色の天空阅读(9536) 评论(0) 推荐(0)

selenium实现淘宝的商品爬取

摘要：一、问题本次利用selenium自动化测试，完成对淘宝的爬取，这样可以避免一些反爬的措施，也是一种爬虫常用的手段。本次实战的难点： 1.如何利用selenium绕过淘宝的登录界面 2.获取淘宝的页面内容实现翻页，并判断是否翻页成功。 3.获取每一页的信息，实现数据的抓取工作。 4.环境python 阅读全文

posted @ 2019-03-19 12:19 蔚蓝色の天空阅读(1384) 评论(0) 推荐(1)

爬取中国福彩网并做可视化分析

摘要：一、问题：利用python的matplotlib和requestss两个库对中奖号码进行可视化分析。经过分析可以知道中奖号码为红色和蓝色两种，数据是以json进行存储。二、方法： 1.首先：matplotlibh和request库的安装,【pip install --upgrade matplo 阅读全文

posted @ 2019-03-18 21:45 蔚蓝色の天空阅读(940) 评论(0) 推荐(0)

xpath获取一个标签下的多个同级标签

摘要：一、问题：我在使用xpath获取文章内容的时候会遇到，多个相同的标签在同一级下面，但是我们只需要获取一部分的内容。比如我不想需要原标题这些内容。二、解决： Xpath中有一个position()的函数，通过这个函数我可以获取到我想要的内容。通过标签的位置我们就可以查询到我们所需要获取的内容。阅读全文

posted @ 2019-03-13 17:23 蔚蓝色の天空阅读(7203) 评论(0) 推荐(0)

Xpath在选择器中正确，在代码中返回的是空列表问题

摘要：一、问题：在进行爬虫的时候我们会用到xpath解析html文件，但是会有一种情况就是在xpath选择器中可以使用，但是在代码中就无法使用的情况。二、原因： 1.是元素中有tbody的原因，这个元素是html生成时产生的，在使用xpath解析的时候无法解析，因此返回的列表为空值。 2.是因为没有写阅读全文

posted @ 2019-03-01 19:10 蔚蓝色の天空阅读(10730) 评论(0) 推荐(0)

爬虫爬取实例与乱码的处理

摘要：爬虫的实战例子： 1.百度图片：百度图片是ajax的数据，其中gsm是十六进制的 2.梨视频：梨视频的参数filter不需要直接请求其他的参数3.搜狐科技：获取搜狐科技的内容4.QQmusic的爬取：获取QQmusic歌单里面的所有歌曲5.淘宝实战： selenium抓取淘宝的图片 6.彩票阅读全文

posted @ 2019-02-23 21:22 蔚蓝色の天空阅读(910) 评论(0) 推荐(0)

类+进程池的方法爬取喜马拉雅

摘要：python是一门面向对象的语言，那么我们在写爬虫的时候自然也可以用到类的封装来实现爬虫。一、类的使用首先是对类的封装，可以将一些请求头写入构造函数当中（因为后面有进程池使用，所以构造函数不需要带参数，如果带上在后面的进程池中，也会报错）。二、Ajax数据处理喜马拉雅的音乐也是采用Ajax的阅读全文

posted @ 2019-02-01 23:58 蔚蓝色の天空阅读(1244) 评论(0) 推荐(0)

Ajax的爬取心得

摘要：一、查找到js的网址在我们做爬虫的时候，如何判断一个数据是Ajax（asynchronous JavaScript And Xml，异步的JavaScript和Xml）, 首先是数据的加载，在请求网页的URL一般不会改变，通过开发者工具进行如何下勾选。就可以在下面中看到来源，通过查看js文件或者阅读全文

posted @ 2019-01-28 15:57 蔚蓝色の天空阅读(177) 评论(0) 推荐(0)

scrapy

摘要：how to chanage the file of scrapy to csv or json file， we used the commond that is "scrapy crawl 【parse_file_name】 -o 【filename】+ .json/.csv" Waring: 阅读全文

posted @ 2018-10-01 23:55 蔚蓝色の天空阅读(135) 评论(0) 推荐(0)

随笔分类 - spider