随笔分类 - spider
use python to spider something
爬虫神器——异步爬虫
摘要:一、背景 有一个项目需要使用到爬虫,因此去Google上搜索了一下,发现除了requests,scrapy,多线程,多进程以外,还有一种方法异步爬虫。使用aiohttp+async来进行网站的爬取。 二、使用 通过以下的指令安装 # 通过指令安装aiohttp pip install aiohttp
阅读全文
python调用js代码解决Google翻译中的tk参数
摘要:一、背景 因为这次需要用到一下Google翻译,对英文翻译成中文,通过对Google翻译的分析,发现Google翻译里面有一个很重要参数tk。这个参数在每次翻译之前都会重新生成,只有校验通过了才可以将翻译的结果返回。而这个参数是使用js来生成了的。 二、解决 通过查阅相关的资料,在国外大佬的个人博客
阅读全文
selenium登录爬取知乎出现:请求异常请升级客户端后重试的问题(用Python中的selenium接管chrome)
摘要:一、问题使用selenium自动化测试爬取知乎的时候出现了:错误代码10001:请求异常请升级客户端后重新尝试,这个错误的产生是由于知乎可以检测selenium自动化测试的脚本,因此可以阻止selenium的继续访问。这也算是比较高级的反爬取措施。二、解决解决方法,使用自己打开的一个浏览器,再用se
阅读全文
Scrapy学习之路(一)————环境配置
摘要:一、问题环境安装 首先scrapy这个爬虫框架是基于twisted完成的因此,在安装scrapy之前需要安装twisted。否则直接安装scrapy就会直接出错:Failed building wheel for twisted。 二、解决首先下载twisted的.whl文件,也包括其他的包可以下载
阅读全文
爬取QQ音乐(讲解爬虫思路)
摘要:一、问题描述: 本次爬取的对象是QQmusic,为自己后面做django音乐网站的开发获取一些资源。 二、问题分析: 由于QQmusic和网易音乐的方式差不多,都是讲歌曲信息放入到播放界面播放,在其他界面没有media的资源,喜马拉雅的则不是这样的,可以参考我爬取喜马拉雅的blog与代码:https
阅读全文
selenium实现淘宝的商品爬取
摘要:一、问题 本次利用selenium自动化测试,完成对淘宝的爬取,这样可以避免一些反爬的措施,也是一种爬虫常用的手段。本次实战的难点: 1.如何利用selenium绕过淘宝的登录界面 2.获取淘宝的页面内容实现翻页,并判断是否翻页成功。 3.获取每一页的信息,实现数据的抓取工作。 4.环境python
阅读全文
爬取中国福彩网并做可视化分析
摘要:一、问题: 利用python的matplotlib和requestss两个库对中奖号码进行可视化分析。经过分析可以知道中奖号码为红色和蓝色两种,数据是以json进行存储。 二、方法: 1.首先:matplotlibh和request库的安装,【pip install --upgrade matplo
阅读全文
xpath获取一个标签下的多个同级标签
摘要:一、问题: 我在使用xpath获取文章内容的时候会遇到,多个相同的标签在同一级下面,但是我们只需要获取一部分的内容。比如我不想需要原标题这些内容。 二、解决: Xpath中有一个position()的函数,通过这个函数我可以获取到我想要的内容。 通过标签的位置我们就可以查询到我们所需要获取的内容。
阅读全文
Xpath在选择器中正确,在代码中返回的是空列表问题
摘要:一、问题: 在进行爬虫的时候我们会用到xpath解析html文件,但是会有一种情况就是在xpath选择器中可以使用,但是在代码中就无法使用的情况。 二、原因: 1.是元素中有tbody的原因,这个元素是html生成时产生的,在使用xpath解析的时候无法解析,因此返回的列表为空值。 2.是因为没有写
阅读全文
爬虫爬取实例与乱码的处理
摘要:爬虫的实战例子: 1.百度图片: 百度图片是ajax的数据,其中gsm是十六进制的 2.梨视频: 梨视频的参数filter不需要直接请求其他的参数3.搜狐科技: 获取搜狐科技的内容4.QQmusic的爬取: 获取QQmusic歌单里面的所有歌曲5.淘宝实战: selenium抓取淘宝的图片 6.彩票
阅读全文
类+进程池的方法爬取喜马拉雅
摘要:python是一门面向对象的语言,那么我们在写爬虫的时候自然也可以用到类的封装来实现爬虫。 一、类的使用 首先是对类的封装,可以将一些请求头写入构造函数当中(因为后面有进程池使用,所以构造函数不需要带参数,如果带上在后面的进程池中,也会报错)。 二、Ajax数据处理 喜马拉雅的音乐也是采用Ajax的
阅读全文
Ajax的爬取心得
摘要:一、查找到js的网址 在我们做爬虫的时候,如何判断一个数据是Ajax(asynchronous JavaScript And Xml,异步的JavaScript和Xml), 首先是数据的加载,在请求网页的URL一般不会改变,通过开发者工具进行如何下勾选。 就可以在下面中看到来源,通过查看js文件或者
阅读全文
scrapy
摘要:how to chanage the file of scrapy to csv or json file, we used the commond that is "scrapy crawl 【parse_file_name】 -o 【filename】+ .json/.csv" Waring:
阅读全文