摘要:
4 1 scrapy安装以及目录结构介绍 安装scrapy可以看我另外一篇博文: "Scrapy的安装 Windows、linux、mac等操作平台" ,现在是在虚拟环境中安装可能有不同。 1.创建有python3的虚拟环境 mkvirtualenv python=C:\Users\admin\Ap 阅读全文
摘要:
技术选型 Scrapy VS requests+beautifulsoup 1. requests和bs都是库,Scrapy是框架。 2. scrapy框架可以加入requests和bs。 3. scrapy是基于twisted,性能是最大的优势。 4. scrapy方便扩展,提供了很多内置的功能。 阅读全文
摘要:
相关代码已经修改调试成功 2017 4 13 详情代码请移步我的github: "https://github.com/pujinxiao/sina_spider" 一、说明 1.目标网址: "新浪微博" 2.实现:跟踪比较活跃的微博号所发的微博内容,隔3 5分钟刷新(爬取)一次,只有更新了才爬的到 阅读全文
摘要:
由于Python的版本众多,还有Python2和Python3的争论,因此有些软件包或第三方库就容易出现版本不兼容的问题。 通过 virtualenv 这个工具,就可以构建一系列虚拟的Python环境 ,然后在每个环境中安装需要的软件包(配合 pip 使用),这一系列的环境是相互隔离的。作为一个独立 阅读全文
摘要:
前些天帮同事爬取一些智联招聘网上的关于数据分析的职位信息,他说要做一些数据分析看看,现在已经帮他爬完了。我本来想用Scrapy来爬的,但是不知道为什么爬取的数据和真实搜到的数据不太一样,比如:搜索到的杭州地区数据分析职位个数有5000左右,但是爬取到的只有4000多点,而且IP一直被ban,免费的I 阅读全文
摘要:
Scrapy安装 Scrapy的安装有多种方式,它支持Python2.7版本及以上或者是Python3.3版本及以上。下面来说py3环境下,scrapy的安装过程。 Scrapy依赖的库比较多,至少需要依赖库Twisted 14.0,lxml 3.4,pyOpenSSL 0.14。在不同平台环境又不 阅读全文
摘要:
最近按公司要求,爬取相关网站时,发现没有找到js包的地址,我就采用selenium来爬取信息,相关实战链接:python爬虫实战(一) 中国作物种质信息网 一、Selenium介绍 Selenium 是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 阅读全文
摘要:
在利用scrapy框架爬各种网站时,一定会碰到某些网站是需要登录才能获取信息。 这两天也在学习怎么去模拟登录,通过自己码的代码和借鉴别人的项目,调试成功豆瓣的模拟登录,顺便处理了怎么自动化的处理验证码。 一般都是通过打码平台处理的,当然你也可以机器学习的知识去识别验证码。后期我想自己做一个关于机器学 阅读全文
摘要:
在学习scrapy爬虫框架中,肯定会涉及到IP代理池和User-Agent池的设定,规避网站的反爬。 这两天在看一个关于搜狗微信文章爬取的视频,里面有讲到ip代理池和用户代理池,在此结合自身的所了解的知识,做一下总结笔记,方便以后借鉴。 笔记 一.反爬虫机制处理思路: 二.散点知识: 实战操作 相关 阅读全文
摘要:
相关代码已经修改调试 2017-3-21 实现:千图网上高清图片的爬取 程序运行20小时,爬取大约162000张图片,一共49G,存入百度云。链接:http://pan.baidu.com/s/1hsolxNe 密码:y0ut 笔记 一、scrapy图片爬虫构建思路 二、千图网难点(http://w 阅读全文