// // // //
上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 41 下一页

2019年5月17日

摘要: Scrapy 使用 Twisted 这个异步框架来处理网络通信,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。 Scrapy 架构 其实之前的教程都有涉及,这里再做个系统介绍 Engine :Scrapy 引擎,即控制中心,负责控制数据流在系统的各个组件中流动,并根据相应动作触发事件; 阅读全文
posted @ 2019-05-17 15:23 努力的孔子 阅读(684) 评论(0) 推荐(0) 编辑
 
摘要: 伪装浏览器 服务器可以查看访问的终端,如果不是浏览器,可能会被屏蔽,而且即使你用同一浏览器访问频率过快,也可能被屏蔽,所以需要伪装浏览器反爬。 有以下几种方法 1. 在 settings中添加 user_agent 也可以添加其他header 2. 重写中间件 在原有 middlewares.py 阅读全文
posted @ 2019-05-17 10:19 努力的孔子 阅读(1301) 评论(0) 推荐(0) 编辑
 
摘要: scrapy 爬取分页网站的策略 1. 检测当前页是否存在“下一页” 2. 如果存在,把“下一页”的链接交给本方法或者其他方法 3. 如果不存在,结束 图示 示例代码 在解析器中,检测下一页的链接,如果存在,就在解析器中继续爬取,这是一种递归实现分页爬取的策略。 当然你可以用其他方法。 注意,这只是 阅读全文
posted @ 2019-05-17 09:53 努力的孔子 阅读(798) 评论(0) 推荐(0) 编辑
 
摘要: scrapy 没有界面,需要命令行来操作。 非常简单,总共也就十四五个命令,分为全局命令和项目命令。 全局命令 在哪都能用 常用命令 不太常用 scrapy bench 用于 benchmark 测试,测试 scrapy 在硬件上的效率。 项目命令 在项目目录才能用 命令行参数 为了增强scrapy 阅读全文
posted @ 2019-05-17 09:44 努力的孔子 阅读(336) 评论(0) 推荐(0) 编辑
 
摘要: 有经验的人都知道,解析网站需要尝试,看看得到的数据是不是想要的,那么在scrapy中怎么尝试呢? 调试工具-shell 主要用于编写解析器 命令行进入shell 这个命令其实是个下载器 shell 界面 获取数据 解析命令 response.css('title'),验证获取的数据正确与否 退出sh 阅读全文
posted @ 2019-05-17 09:40 努力的孔子 阅读(1037) 评论(0) 推荐(1) 编辑
 
摘要: scrapy 是个爬虫框架,是由python编写的,用法类似 django 框架。 创建工程 在开始爬虫之前,先创建工程 目录结构如下图 文件说明 顶层的scrapy1是工程名 第二层的scrapy1相当于app名 scrapy.cfg 工程的配置信息,目的是使得工程能够正常运行 spiders 用 阅读全文
posted @ 2019-05-17 09:39 努力的孔子 阅读(343) 评论(0) 推荐(0) 编辑
 
摘要: 安装 具体请自行百度 依赖库 网上说pip安装会内分泌失调,我试了下还行吧,不过也遇到几个问题 解决方法 解决方法 安装成功 离线下载地址 https://pypi.org/project/Scrapy/#files 实战入门 命令行运行 自动生成 test.json 文件,并存入爬取内容。 这是最 阅读全文
posted @ 2019-05-17 09:36 努力的孔子 阅读(343) 评论(0) 推荐(0) 编辑
 

2019年5月16日

摘要: Event 简介 Event 事件 是线程间通信的最简单方法之一,主要用于线程同步。 处理机制 定义一个全局内置标志Flag,如果Flag为False,执行到 event.wait 时程序就会阻塞,如果Flag为True,event.wait 便不会阻塞 【注意如果处于阻塞状态,不管在哪使得Flag 阅读全文
posted @ 2019-05-16 16:47 努力的孔子 阅读(708) 评论(0) 推荐(0) 编辑
 

2019年5月8日

摘要: 引言 很多分类器在数学解释时都是以二分类为例,其数学推导不适用于多分类,模型本身也只能用于二分类,如SVM,Adaboost , 但是现实中很多问题是多分类的,那这些模型还能用吗 二分类 to 多分类 更改数学原理 改变这些模型的原理,重新推导数学公式,然后代码实现。 这种方法一般不可取,难度大,而 阅读全文
posted @ 2019-05-08 16:34 努力的孔子 阅读(9395) 评论(2) 推荐(1) 编辑
 

2019年5月6日

摘要: 引言 之前学习了 R-CNN 和 SPPNet,这里做一下回顾和补充。 问题 R-CNN 需要对输入进行resize变换,在对大量 ROI 进行特征提取时,需要进行卷积计算,而且由于 ROI 存在重复区域,所以特征提取存在大量的重复计算; SPPNet 针对 R-CNN 进行了改进,其利用空间金字塔 阅读全文
posted @ 2019-05-06 15:19 努力的孔子 阅读(1702) 评论(0) 推荐(1) 编辑
 
上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 41 下一页