骑者赶路 - 博客园

2018年4月18日

摘要：官方文档：https://docs.scrapy.org/en/latest/topics/spiders.html# 一句话总结：spider是定义爬取的动作（是否跟进新的链接）及分析网页结构（提取数据，返回item）的地方。一 scrapy.Spider 1 name 2 allowed_do 阅读全文

posted @ 2018-04-18 15:39 骑者赶路阅读(130) 评论(0) 推荐(0) 编辑

scrapy之Selectors

摘要：练习url：https://doc.scrapy.org/en/latest/_static/selectors-sample1.html 一获取文本值 xpath css 注：可以省略写成:response.xpath() 二获取属性值 xpath css 注: 可以省略写成：response 阅读全文

posted @ 2018-04-18 14:18 骑者赶路阅读(130) 评论(0) 推荐(0) 编辑

scrapy介绍及源码分析

摘要：一简介 Scrapy基于事件驱动网络框架 Twisted 编写。因此，Scrapy基于并发性考虑由非阻塞(即异步)的实现。官方文档：https://docs.scrapy.org/en/latest/topics/architecture.html 最重要的是理解 Data flow。别人的阅读全文

posted @ 2018-04-18 11:38 骑者赶路阅读(190) 评论(0) 推荐(0) 编辑

2018年4月17日

scrapy框架之comand line tool

摘要：一 Global Command 1 startproject https://docs.scrapy.org/en/latest/topics/commands.html#startproject 2 scrapy genspider -t basic baidu www.baidu.com ht 阅读全文

posted @ 2018-04-17 20:19 骑者赶路阅读(92) 评论(0) 推荐(0) 编辑

CSS选择器与XPath语言

摘要：一在爬取页面信息的过程中，需要到想要的信息进行定位，主要有两种方法。CSS选择器和XPath语言。查找某一个标签，两种方法都可以做到。二 CSS选择器 http://www.w3school.com.cn/cssref/css_selectors.asp 伪类选择器（a:hover） http 阅读全文

posted @ 2018-04-17 12:01 骑者赶路阅读(124) 评论(0) 推荐(0) 编辑

2018年4月15日

Selenium之Web页面滚动条滚操作

摘要：原文博客地址：https://blog.csdn.net/jlminghui/article/details/50477283 阅读全文

posted @ 2018-04-15 20:43 骑者赶路阅读(411) 评论(0) 推荐(0) 编辑

Selenium+Chrome+PhantomJS 爬取淘宝

摘要： https://github.com/factsbenchmarks/taobao-jingdong 一简单铺垫 Selenium负责驱动浏览器与python对接 PhantomJS负责渲染解析JavaScript 二函数单独一个函数，传一个参数页码，实现跳转到该指定页面的功能。获取某页码阅读全文

posted @ 2018-04-15 17:27 骑者赶路阅读(286) 评论(0) 推荐(0) 编辑

2018年4月13日

爬取今日头条中的图片

摘要：代码：https://github.com/factsbenchmarks/jinritoutiao 今日头条搜索：cos. 网址：https://www.toutiao.com/search/?keyword=cos 分析1 在network的doc中的Preview，看到只有一句话，并没有页面阅读全文

posted @ 2018-04-13 16:26 骑者赶路阅读(653) 评论(0) 推荐(0) 编辑

2018年4月12日

django 和 mongdb 写一个简陋的网址，以及用django内置的分页功能

摘要： https://github.com/factsbenchmarks/simple_websit_about_58 一设置数据库的设置在settings文件中加入这样一段代码：说明：xxx 是某个数据库的名称。二定义models 说明：推荐继承DynamicDocument类。相关联的表阅读全文

posted @ 2018-04-12 19:27 骑者赶路阅读(128) 评论(0) 推荐(0) 编辑

2018年4月11日

charts 画饼图

摘要：统计某一天某类物体的百分比新知识点：aggregate https://blog.csdn.net/congcong68/article/details/51619882 主要的 $group $match $sort $limit 阅读全文

posted @ 2018-04-11 19:08 骑者赶路阅读(148) 评论(0) 推荐(0) 编辑

公告