2017 年 3月 6 日随笔档案 - 林深时见鹿

2017年3月6日

爬虫之动态HTML处理（Selenium与PhantomJS ）动态页面模拟点击

摘要：动态页面模拟点击阅读全文

posted @ 2017-03-06 23:30 林深时见鹿阅读(5485) 评论(0) 推荐(0) 编辑

爬虫之动态HTML处理（Selenium与PhantomJS ）执行 JavaScript 语句

摘要：执行 JavaScript 语句 1.隐藏百度图片 from selenium import webdriverimport time driver = webdriver.PhantomJS()driver.get("https://www.baidu.com/") # 给搜索输入框标红的java 阅读全文

posted @ 2017-03-06 23:28 林深时见鹿阅读(5373) 评论(0) 推荐(0) 编辑

爬虫之动态HTML处理（Selenium与PhantomJS ）网站模拟登录

摘要： #coding=utf-8from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timeimport sysreload(sys)sys.setdefaultencoding('utf8 阅读全文

posted @ 2017-03-06 23:12 林深时见鹿阅读(1768) 评论(0) 推荐(0) 编辑

爬虫之动态HTML处理（Selenium与PhantomJS ）

摘要： Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据我们阅读全文

posted @ 2017-03-06 23:04 林深时见鹿阅读(4160) 评论(0) 推荐(0) 编辑

爬虫框架Scrapy之小试牛刀

该文被密码保护。阅读全文

posted @ 2017-03-06 00:35 林深时见鹿阅读(2) 评论(0) 推荐(0) 编辑

爬虫框架Scrapy之详解

摘要： Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手阅读全文

posted @ 2017-03-06 00:28 林深时见鹿阅读(506) 评论(0) 推荐(0) 编辑

通过Fiddler进行手机抓包

摘要：参考文档：https://www.cnblogs.com/sucretan2010/p/11526467.html 通过Fiddler进行手机抓包通过Fiddler抓包工具，可以抓取手机的网络通信，但前提是手机和电脑处于同一局域网内（WI-FI或热点），然后进行以下设置：用Fiddler对And 阅读全文

posted @ 2017-03-06 00:26 林深时见鹿阅读(657) 评论(0) 推荐(0) 编辑

爬虫框架Scrapy之案例三图片下载器

摘要： items.py spiders/coser.py pipelines.py settings.py 在项目根目录下新建main.py文件,用于调试执行程序阅读全文

posted @ 2017-03-06 00:18 林深时见鹿阅读(653) 评论(0) 推荐(0) 编辑

爬虫框架Scrapy之案例二

摘要：新浪网分类资讯爬虫爬取新浪网导航页所有下所有大类、小类、小类里的子链接，以及子链接页面的新闻内容。效果演示图： items.py spiders/sina.py pipelines.py settings.py 在项目根目录下新建main.py文件,用于调试执行程序阅读全文

posted @ 2017-03-06 00:16 林深时见鹿阅读(983) 评论(0) 推荐(0) 编辑

爬虫框架Scrapy之案例一

摘要：阳光热线问政平台 http://wz.sun0769.com/index.php/question/questionType?type=4 爬取投诉帖子的编号、帖子的url、帖子的标题，和帖子里的内容。 items.py spiders/sunwz.py pipelines.py settings. 阅读全文

posted @ 2017-03-06 00:14 林深时见鹿阅读(495) 评论(0) 推荐(0) 编辑

爬虫框架Scrapy之Settings

摘要： Settings Scrapy设置(settings)提供了定制Scrapy组件的方法。可以控制包括核心(core)，插件(extension)，pipeline及spider组件。比如设置Json Pipeliine、LOG_LEVEL等。参考文档：http://scrapy-chs.read 阅读全文

posted @ 2017-03-06 00:12 林深时见鹿阅读(683) 评论(0) 推荐(0) 编辑

爬虫框架Scrapy之Downloader Middlewares

摘要：反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those mea 阅读全文

posted @ 2017-03-06 00:11 林深时见鹿阅读(24436) 评论(0) 推荐(1) 编辑

爬虫框架Scrapy之Request/Response

摘要： Request Request 源码：其中，比较常用的参数： Response 和上面的差不多：模拟登陆使用FormRequest.from_response()方法模拟用户登录通常网站通过实现对某些表单字段（如数据或是登录界面中的认证令牌等）的预填充。使用Scrapy抓取网页时，如果想阅读全文

posted @ 2017-03-06 00:10 林深时见鹿阅读(9597) 评论(0) 推荐(0) 编辑

爬虫框架Scrapy之CrawlSpiders

摘要： CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com 上一个案例中，我们通过正则表达式，制作了新的url作为Request请求参数，现在我们可以换个花样... class 阅读全文

posted @ 2017-03-06 00:08 林深时见鹿阅读(1082) 评论(0) 推荐(1) 编辑

爬虫框架Scrapy之Spider

摘要： Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编写阅读全文

posted @ 2017-03-06 00:07 林深时见鹿阅读(9897) 评论(1) 推荐(1) 编辑

爬虫框架Scrapy之Item Pipeline

摘要： Item Pipeline 当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item pipeline 阅读全文

posted @ 2017-03-06 00:06 林深时见鹿阅读(20267) 评论(1) 推荐(0) 编辑

Scrapy之Scrapy shell

摘要： Scrapy Shell Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据。如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端阅读全文

posted @ 2017-03-06 00:05 林深时见鹿阅读(584) 评论(0) 推荐(0) 编辑

爬虫之多线程案例

摘要：多线程糗事百科案例案例要求参考上一个糗事百科单进程案例 Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是n 阅读全文

posted @ 2017-03-06 00:04 林深时见鹿阅读(794) 评论(0) 推荐(0) 编辑

林深时见鹿

公告