摘要: 用Pymongo保存数据 爬取豆瓣电影top250movie.douban.com/top250的电影数据,并保存在MongoDB中。 items.py spiders/douban.py pipelines.py settings.py 运行 阅读全文
posted @ 2017-03-13 01:07 林深时见鹿 阅读(780) 评论(0) 推荐(0) 编辑
摘要: 手机App抓包爬虫 1. items.py 2. spiders/douyu.py 3. 设置setting.py 4. pipelines.py 在项目根目录下新建main.py文件,用于调试 执行程序 阅读全文
posted @ 2017-03-13 01:04 林深时见鹿 阅读(3059) 评论(1) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2017-03-13 00:57 林深时见鹿 阅读(1) 评论(0) 推荐(0) 编辑
摘要: WebSocket WebSocket是HTML5规范中新提出的客户端-服务器通讯协议,协议本身使用新的ws://URL格式。 WebSocket 是独立的、创建在 TCP 上的协议,和 HTTP 的唯一关联是使用 HTTP 协议的101状态码进行协议切换,使用的 TCP 端口是80,可以用于绕过大 阅读全文
posted @ 2017-03-09 23:59 林深时见鹿 阅读(13706) 评论(0) 推荐(1) 编辑
摘要: Tornado异步 因为epoll主要是用来解决网络IO的并发问题,所以Tornado的异步编程也主要体现在网络IO的异步上,即异步Web请求。 1. tornado.httpclient.AsyncHTTPClient Tornado提供了一个异步Web请求客户端tornado.httpclien 阅读全文
posted @ 2017-03-09 23:58 林深时见鹿 阅读(803) 评论(0) 推荐(0) 编辑
摘要: 1. 同步 我们用两个函数来模拟两个客户端请求,并依次进行处理: 执行结果: 同步是按部就班的依次执行,始终按照同一个步调执行,上一个步骤未执行完不会执行下一步。 想一想,如果在处理请求req_a时需要执行一个耗时的工作(如IO),其执行过程如何? 执行过程: 在上面的测试中,我们看到耗时的操作会将 阅读全文
posted @ 2017-03-09 23:57 林深时见鹿 阅读(460) 评论(0) 推荐(0) 编辑
摘要: 动态页面模拟点击 阅读全文
posted @ 2017-03-06 23:30 林深时见鹿 阅读(5481) 评论(0) 推荐(0) 编辑
摘要: 执行 JavaScript 语句 1.隐藏百度图片 from selenium import webdriverimport time driver = webdriver.PhantomJS()driver.get("https://www.baidu.com/") # 给搜索输入框标红的java 阅读全文
posted @ 2017-03-06 23:28 林深时见鹿 阅读(5368) 评论(0) 推荐(0) 编辑
摘要: #coding=utf-8from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timeimport sysreload(sys)sys.setdefaultencoding('utf8 阅读全文
posted @ 2017-03-06 23:12 林深时见鹿 阅读(1766) 评论(0) 推荐(0) 编辑
摘要: Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们 阅读全文
posted @ 2017-03-06 23:04 林深时见鹿 阅读(4159) 评论(0) 推荐(0) 编辑