上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 34 下一页
摘要: 官方文档:https://docs.scrapy.org/en/latest/topics/spiders.html# 一句话总结:spider是定义爬取的动作(是否跟进新的链接)及分析网页结构(提取数据,返回item)的地方。 一 scrapy.Spider 1 name 2 allowed_do 阅读全文
posted @ 2018-04-18 15:39 骑者赶路 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 练习url:https://doc.scrapy.org/en/latest/_static/selectors-sample1.html 一 获取文本值 xpath css 注:可以省略写成:response.xpath() 二 获取属性值 xpath css 注: 可以省略写成:response 阅读全文
posted @ 2018-04-18 14:18 骑者赶路 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 一 简介 Scrapy基于事件驱动网络框架 Twisted 编写。因此,Scrapy基于并发性考虑由非阻塞(即异步)的实现。 官方文档 :https://docs.scrapy.org/en/latest/topics/architecture.html 最重要的是理解 Data flow。 别人的 阅读全文
posted @ 2018-04-18 11:38 骑者赶路 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 一 Global Command 1 startproject https://docs.scrapy.org/en/latest/topics/commands.html#startproject 2 scrapy genspider -t basic baidu www.baidu.com ht 阅读全文
posted @ 2018-04-17 20:19 骑者赶路 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 一 在爬取页面信息的过程中,需要到想要的信息进行定位,主要有两种方法。CSS选择器和XPath语言。查找某一个标签,两种方法都可以做到。 二 CSS选择器 http://www.w3school.com.cn/cssref/css_selectors.asp 伪类选择器 (a:hover) http 阅读全文
posted @ 2018-04-17 12:01 骑者赶路 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 原文博客地址:https://blog.csdn.net/jlminghui/article/details/50477283 阅读全文
posted @ 2018-04-15 20:43 骑者赶路 阅读(410) 评论(0) 推荐(0) 编辑
摘要: https://github.com/factsbenchmarks/taobao-jingdong 一 简单铺垫 Selenium负责驱动浏览器与python对接 PhantomJS负责渲染解析JavaScript 二 函数 单独一个函数,传一个参数 页码,实现跳转到该指定页面的功能。 获取某页码 阅读全文
posted @ 2018-04-15 17:27 骑者赶路 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 代码:https://github.com/factsbenchmarks/jinritoutiao 今日头条搜索 :cos. 网址:https://www.toutiao.com/search/?keyword=cos 分析1 在network的doc中的Preview,看到只有一句话,并没有页面 阅读全文
posted @ 2018-04-13 16:26 骑者赶路 阅读(620) 评论(0) 推荐(0) 编辑
摘要: https://github.com/factsbenchmarks/simple_websit_about_58 一 设置 数据库的设置 在settings文件中加入这样一段代码: 说明:xxx 是某个数据库的名称。 二 定义models 说明:推荐继承DynamicDocument类。相关联的表 阅读全文
posted @ 2018-04-12 19:27 骑者赶路 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 统计某一天某类物体的百分比 新知识点:aggregate https://blog.csdn.net/congcong68/article/details/51619882 主要的 $group $match $sort $limit 阅读全文
posted @ 2018-04-11 19:08 骑者赶路 阅读(146) 评论(0) 推荐(0) 编辑
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 34 下一页