今孝 - 博客园

2017年4月15日

摘要： 4 1 scrapy安装以及目录结构介绍安装scrapy可以看我另外一篇博文： "Scrapy的安装 Windows、linux、mac等操作平台" ，现在是在虚拟环境中安装可能有不同。 1.创建有python3的虚拟环境 mkvirtualenv python=C:\Users\admin\Ap 阅读全文

posted @ 2017-04-15 10:55 今孝阅读(4048) 评论(0) 推荐(0) 编辑

2017年4月14日

第3章爬虫基础知识回顾

摘要：技术选型 Scrapy VS requests+beautifulsoup 1. requests和bs都是库，Scrapy是框架。 2. scrapy框架可以加入requests和bs。 3. scrapy是基于twisted，性能是最大的优势。 4. scrapy方便扩展，提供了很多内置的功能。阅读全文

posted @ 2017-04-14 11:16 今孝阅读(5683) 评论(0) 推荐(1) 编辑

2017年4月13日

python爬虫实战（六）--------新浪微博（爬取微博帐号所发内容，不爬取历史内容）

摘要：相关代码已经修改调试成功 2017 4 13 详情代码请移步我的github： "https://github.com/pujinxiao/sina_spider" 一、说明 1.目标网址： "新浪微博" 2.实现：跟踪比较活跃的微博号所发的微博内容，隔3 5分钟刷新（爬取）一次，只有更新了才爬的到阅读全文

posted @ 2017-04-13 13:43 今孝阅读(4741) 评论(1) 推荐(0) 编辑

2017年4月12日

【转】windows下安装Python虚拟环境virtualenvwrapper-win

摘要：由于Python的版本众多，还有Python2和Python3的争论，因此有些软件包或第三方库就容易出现版本不兼容的问题。通过 virtualenv 这个工具，就可以构建一系列虚拟的Python环境，然后在每个环境中安装需要的软件包(配合 pip 使用)，这一系列的环境是相互隔离的。作为一个独立阅读全文

posted @ 2017-04-12 09:32 今孝阅读(895) 评论(0) 推荐(0) 编辑

2017年4月9日

python爬虫实战（五）--------智联招聘网

摘要：前些天帮同事爬取一些智联招聘网上的关于数据分析的职位信息，他说要做一些数据分析看看，现在已经帮他爬完了。我本来想用Scrapy来爬的，但是不知道为什么爬取的数据和真实搜到的数据不太一样，比如：搜索到的杭州地区数据分析职位个数有5000左右，但是爬取到的只有4000多点，而且IP一直被ban，免费的I 阅读全文

posted @ 2017-04-09 17:55 今孝阅读(6347) 评论(19) 推荐(2) 编辑

2017年4月8日

Scrapy的安装--------Windows、linux、mac等操作平台

摘要： Scrapy安装 Scrapy的安装有多种方式，它支持Python2.7版本及以上或者是Python3.3版本及以上。下面来说py3环境下，scrapy的安装过程。 Scrapy依赖的库比较多，至少需要依赖库Twisted 14.0，lxml 3.4，pyOpenSSL 0.14。在不同平台环境又不阅读全文

posted @ 2017-04-08 14:05 今孝阅读(3937) 评论(3) 推荐(3) 编辑

2017年4月7日

python爬虫积累（一）--------selenium+python+PhantomJS的使用

摘要：最近按公司要求，爬取相关网站时，发现没有找到js包的地址，我就采用selenium来爬取信息，相关实战链接：python爬虫实战（一）中国作物种质信息网一、Selenium介绍 Selenium 是什么？一句话，自动化测试工具。它支持各种浏览器，包括 Chrome，Safari，Firefox 阅读全文

posted @ 2017-04-07 19:42 今孝阅读(22256) 评论(0) 推荐(1) 编辑

2017年4月6日

python爬虫实战（四）--------豆瓣网的模拟登录（模拟登录和验证码的处理----scrapy）

摘要：在利用scrapy框架爬各种网站时，一定会碰到某些网站是需要登录才能获取信息。这两天也在学习怎么去模拟登录，通过自己码的代码和借鉴别人的项目，调试成功豆瓣的模拟登录，顺便处理了怎么自动化的处理验证码。一般都是通过打码平台处理的，当然你也可以机器学习的知识去识别验证码。后期我想自己做一个关于机器学阅读全文

posted @ 2017-04-06 10:55 今孝阅读(14362) 评论(4) 推荐(2) 编辑

2017年4月4日

python爬虫实战（三）--------搜狗微信文章（IP代理池和用户代理池设定----scrapy）

摘要：在学习scrapy爬虫框架中，肯定会涉及到IP代理池和User-Agent池的设定，规避网站的反爬。这两天在看一个关于搜狗微信文章爬取的视频，里面有讲到ip代理池和用户代理池，在此结合自身的所了解的知识，做一下总结笔记，方便以后借鉴。笔记一.反爬虫机制处理思路：二.散点知识：实战操作相关阅读全文

posted @ 2017-04-04 19:45 今孝阅读(13053) 评论(4) 推荐(1) 编辑

2017年4月2日

python爬虫实战（二）--------千图网高清图

摘要：相关代码已经修改调试 2017-3-21 实现：千图网上高清图片的爬取程序运行20小时，爬取大约162000张图片，一共49G,存入百度云。链接：http://pan.baidu.com/s/1hsolxNe 密码：y0ut 笔记一、scrapy图片爬虫构建思路二、千图网难点（http://w 阅读全文

posted @ 2017-04-02 22:57 今孝阅读(4787) 评论(1) 推荐(1) 编辑

今孝

你现在的努力，决定你未来站立的高度，所立之处，决定你看到什么样的风景。

公告