04 2018 档案

摘要:Parse命令,Scrapy shell,logging 一 Parse命令 检查spider输出的最基本方法是使用Parse命令。这能让你在函数层上检查spider哥哥部分的效果,其十分灵活并且已用。不过不能在代码中测试。 https://docs.scrapy.org/en/latest/top 阅读全文
posted @ 2018-04-29 18:06 骑者赶路 阅读(366) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/done58/article/details/50996680 阅读全文
posted @ 2018-04-28 16:25 骑者赶路 阅读(135) 评论(0) 推荐(0) 编辑
摘要:一 scrapy添加代理 1 内置代理:os.environ。 固定格式,不推荐 2 自定义代理:通过中间件实现 阅读全文
posted @ 2018-04-27 00:23 骑者赶路 阅读(257) 评论(0) 推荐(0) 编辑
摘要:一 总结 页面是异步加载,页面滑动的过程中,每张图片的url才显示。所以推荐selenium。同时需要selenium执行js代买,实现页面滚动的效果。就是window.scrollTo()方法。 在用scrapy框架中,并不是所有的request都是需要经过用selenium。经过selenium 阅读全文
posted @ 2018-04-22 21:24 骑者赶路 阅读(177) 评论(0) 推荐(0) 编辑
摘要:如图所示: 阅读全文
posted @ 2018-04-21 17:44 骑者赶路 阅读(314) 评论(0) 推荐(0) 编辑
摘要:这个实例还是值得多次看的 其流程图如下,还是有一点绕的。 总结: 1 Requst(rul=' xxx ',callback= ' '),仅仅发起 某个网页 的访问请求,没啥了。剩下的交给回调函数 2 parse_()。对 某个页面 经过下载后的 数据 进行处理,包括逻辑判断,有可能比较复杂,提取想 阅读全文
posted @ 2018-04-20 22:57 骑者赶路 阅读(329) 评论(0) 推荐(0) 编辑
摘要:官方文档:https://docs.scrapy.org/en/latest/topics/downloader-middleware.html 一 write your own downloader middleware process_request(request,spider) return 阅读全文
posted @ 2018-04-19 22:15 骑者赶路 阅读(131) 评论(0) 推荐(0) 编辑
摘要:一 为什么要用远程服务器 两个目的:对更大计算能力和灵活性的需求 和 对可变IP地址的需求 1 避免IP地址被封杀 建立网络爬虫的第一原则是:所有的信息都可以伪造。你可以用非本人的邮箱发送邮件,通过命令行自动化鼠标的行为。但有一件事情是不能作假的,那就是你的IP地址。 阻止网站被采集的注意力主要集中 阅读全文
posted @ 2018-04-19 18:23 骑者赶路 阅读(155) 评论(0) 推荐(0) 编辑
摘要:一 隐含输入字段值 字段的值对浏览器可见,但是对用户不可见。隐含字段主要用于阻止爬虫自动提交表单。 用隐含字段阻止网络数据采集的方式主要有两种: 第一种是表单页面上的一个字段可以用服务器生成的随机变量表示。如果提交时这个值不在表单处理页面上,服务器就有理由认为这个提交不是从原始表单页面上提交的,而是 阅读全文
posted @ 2018-04-19 17:44 骑者赶路 阅读(446) 评论(0) 推荐(0) 编辑
摘要:做法 1: 可以一步一步cookies,毫无疑问,这非常麻烦。 做法 2 : requests库自带的session模块完美解决这个问题。 阅读全文
posted @ 2018-04-19 16:48 骑者赶路 阅读(104) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/column/details/pythonpil.html 示例: 输出: a.jpg ag.jpg b.jpg 阅读全文
posted @ 2018-04-19 15:35 骑者赶路 阅读(189) 评论(0) 推荐(0) 编辑
摘要:首先,先安装好Tesseract软件,pytesseract模块 问题 1 :FileNotFoundError: [WinError 2] 系统找不到指定的文件。 加上这行代码 方法 1 image_to_string() 输出: 阅读全文
posted @ 2018-04-19 15:00 骑者赶路 阅读(178) 评论(0) 推荐(0) 编辑
摘要:验证码(CAPTCHA)的全称为 全自动区分计算机和人类的公开图灵测试 阅读全文
posted @ 2018-04-19 14:50 骑者赶路 阅读(84) 评论(0) 推荐(0) 编辑
摘要:当表单使用POST方法时,表单数据提交到服务器端之前有两种编码类型可供选择。默认编码类型为 application/x-www-form-urlencoded,此时所有非字母数字类型的字符都需要转换为十六进制的ASCII值,但是如果表单中包含大量非字母数字类型的字符时,这种编码类型的效率就会非常低, 阅读全文
posted @ 2018-04-19 13:48 骑者赶路 阅读(242) 评论(0) 推荐(0) 编辑
摘要:1 __class__ instance.__class__ The class to which a class instance belongs 输出: 2 __name__ definition.__name__ The name of the class, function, method, 阅读全文
posted @ 2018-04-19 13:30 骑者赶路 阅读(299) 评论(0) 推荐(0) 编辑
摘要:要爬取的网址是:http://quotes.toscrape.com/ 磕磕绊绊的写完了 spiders Pipeline 收获: 1 这里都是类,完全可以定义__init__,完全可以把一些数据 添加到其静态属性。 阅读全文
posted @ 2018-04-18 23:58 骑者赶路 阅读(111) 评论(0) 推荐(0) 编辑
摘要:官方文档:https://docs.scrapy.org/en/latest/topics/item-pipeline.html 激活pipeline,需要在settings里配置,然而这里配置的pipeline会作用于所有的spider。加入项目中有很多spider在运行。item pipelin 阅读全文
posted @ 2018-04-18 19:27 骑者赶路 阅读(338) 评论(0) 推荐(0) 编辑
摘要:官方文档:https://docs.scrapy.org/en/latest/topics/spiders.html# 一句话总结:spider是定义爬取的动作(是否跟进新的链接)及分析网页结构(提取数据,返回item)的地方。 一 scrapy.Spider 1 name 2 allowed_do 阅读全文
posted @ 2018-04-18 15:39 骑者赶路 阅读(131) 评论(0) 推荐(0) 编辑
摘要:练习url:https://doc.scrapy.org/en/latest/_static/selectors-sample1.html 一 获取文本值 xpath css 注:可以省略写成:response.xpath() 二 获取属性值 xpath css 注: 可以省略写成:response 阅读全文
posted @ 2018-04-18 14:18 骑者赶路 阅读(130) 评论(0) 推荐(0) 编辑
摘要:一 简介 Scrapy基于事件驱动网络框架 Twisted 编写。因此,Scrapy基于并发性考虑由非阻塞(即异步)的实现。 官方文档 :https://docs.scrapy.org/en/latest/topics/architecture.html 最重要的是理解 Data flow。 别人的 阅读全文
posted @ 2018-04-18 11:38 骑者赶路 阅读(193) 评论(0) 推荐(0) 编辑
摘要:一 Global Command 1 startproject https://docs.scrapy.org/en/latest/topics/commands.html#startproject 2 scrapy genspider -t basic baidu www.baidu.com ht 阅读全文
posted @ 2018-04-17 20:19 骑者赶路 阅读(92) 评论(0) 推荐(0) 编辑
摘要:一 在爬取页面信息的过程中,需要到想要的信息进行定位,主要有两种方法。CSS选择器和XPath语言。查找某一个标签,两种方法都可以做到。 二 CSS选择器 http://www.w3school.com.cn/cssref/css_selectors.asp 伪类选择器 (a:hover) http 阅读全文
posted @ 2018-04-17 12:01 骑者赶路 阅读(124) 评论(0) 推荐(0) 编辑
摘要:原文博客地址:https://blog.csdn.net/jlminghui/article/details/50477283 阅读全文
posted @ 2018-04-15 20:43 骑者赶路 阅读(411) 评论(0) 推荐(0) 编辑
摘要:https://github.com/factsbenchmarks/taobao-jingdong 一 简单铺垫 Selenium负责驱动浏览器与python对接 PhantomJS负责渲染解析JavaScript 二 函数 单独一个函数,传一个参数 页码,实现跳转到该指定页面的功能。 获取某页码 阅读全文
posted @ 2018-04-15 17:27 骑者赶路 阅读(286) 评论(0) 推荐(0) 编辑
摘要:代码:https://github.com/factsbenchmarks/jinritoutiao 今日头条搜索 :cos. 网址:https://www.toutiao.com/search/?keyword=cos 分析1 在network的doc中的Preview,看到只有一句话,并没有页面 阅读全文
posted @ 2018-04-13 16:26 骑者赶路 阅读(702) 评论(0) 推荐(0) 编辑
摘要:https://github.com/factsbenchmarks/simple_websit_about_58 一 设置 数据库的设置 在settings文件中加入这样一段代码: 说明:xxx 是某个数据库的名称。 二 定义models 说明:推荐继承DynamicDocument类。相关联的表 阅读全文
posted @ 2018-04-12 19:27 骑者赶路 阅读(128) 评论(0) 推荐(0) 编辑
摘要:统计某一天某类物体的百分比 新知识点:aggregate https://blog.csdn.net/congcong68/article/details/51619882 主要的 $group $match $sort $limit 阅读全文
posted @ 2018-04-11 19:08 骑者赶路 阅读(148) 评论(0) 推荐(0) 编辑
摘要:主题:指定日期内,不同地区的发布信息的数量的变化曲线 数据库是mongod 数据是58同城的发布的信息 整体思路: 1由于从数据库中拿到的数据,格式等方面并不一样能完全满足需求,需要对数据库中的数据进行整理 2 更新数据库 3 数据可视化 出发点: 从哪天开始,到哪天结束 具体区域 追求点: 以上区 阅读全文
posted @ 2018-04-11 15:36 骑者赶路 阅读(203) 评论(0) 推荐(0) 编辑
摘要:1 $unset The $unset operator deletes a particular field。 https://docs.mongodb.com/manual/reference/operator/update/unset/ 2 $in The $in operator selec 阅读全文
posted @ 2018-04-11 15:27 骑者赶路 阅读(174) 评论(0) 推荐(0) 编辑
摘要:数据库是mongdb 数据是58同城上发的转手记录 一 为了保证数据安全,对需要进行处理的数据进行拷贝。 二 对数据库中的数据进行处理 不要想着将数据拿出来,处理完后,在一一对应放到数据库中! 原本数据库中的地址存储的格式是:北京-昌平,北京-通州,需要拿到具体的某个区。 在jupyter note 阅读全文
posted @ 2018-04-10 22:26 骑者赶路 阅读(2003) 评论(0) 推荐(0) 编辑
摘要:github网址: 58同城二手市场官网,以北京为例:http://bj.58.com/sale.shtml 通过查看前端代码,可以看出,每一类商品都是在 http://bj.58.com/ 后面加上相关英文字符。比如查找苹果手机,其url是 http://bj.58.com/iphonesj/。 阅读全文
posted @ 2018-04-10 12:31 骑者赶路 阅读(166) 评论(0) 推荐(0) 编辑
摘要:一 select方法与find_all()方法的区别 select 是css selector按照css规则匹配 find_all() 是按标签和属性参数来匹配 阅读全文
posted @ 2018-04-09 11:41 骑者赶路 阅读(91) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/qq_16399991/article/details/70473858 阅读全文
posted @ 2018-04-08 22:48 骑者赶路 阅读(109) 评论(0) 推荐(0) 编辑
摘要:一 下载 官网:https://fastdl.mongodb.org/win32/mongodb-win32-x86_64-2008plus-ssl-3.6.3-signed.msi 官网可能打不开,将这个网址直接拉到迅雷里下载。 二 环境配置 文件层级结构 Mongdb>Server>3.6>bi 阅读全文
posted @ 2018-04-08 21:25 骑者赶路 阅读(138) 评论(0) 推荐(0) 编辑
摘要:1 利用jupyter notebook写代码 2 在jupyter notebook页面,有快捷方式,可以在help中设置。 3 BeautifulSoup的常用方法 输出: select('#id span p ') 输出: .contents,contents 属性可以将tag的子节点以列表的 阅读全文
posted @ 2018-04-02 17:27 骑者赶路 阅读(409) 评论(0) 推荐(0) 编辑
摘要:在安装scrapy框架的过程中,pip install scrapy 出现报错信息: building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is required. Get it with "Microso 阅读全文
posted @ 2018-04-02 10:32 骑者赶路 阅读(1426) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示