2018 年 4月随笔档案 - 骑者赶路

scrapy的调试方法

摘要：Parse命令，Scrapy shell，logging 一 Parse命令检查spider输出的最基本方法是使用Parse命令。这能让你在函数层上检查spider哥哥部分的效果，其十分灵活并且已用。不过不能在代码中测试。 https://docs.scrapy.org/en/latest/top 阅读全文

posted @ 2018-04-29 18:06 骑者赶路阅读(366) 评论(0) 推荐(0) 编辑

Http、TCP/IP协议与Socket之间的区别

摘要：https://blog.csdn.net/done58/article/details/50996680 阅读全文

posted @ 2018-04-28 16:25 骑者赶路阅读(135) 评论(0) 推荐(0) 编辑

关于scarpy的一些说明

摘要：一 scrapy添加代理 1 内置代理：os.environ。固定格式，不推荐 2 自定义代理：通过中间件实现阅读全文

posted @ 2018-04-27 00:23 骑者赶路阅读(257) 评论(0) 推荐(0) 编辑

爬取腾讯漫画

摘要：一总结页面是异步加载，页面滑动的过程中，每张图片的url才显示。所以推荐selenium。同时需要selenium执行js代买，实现页面滚动的效果。就是window.scrollTo()方法。在用scrapy框架中，并不是所有的request都是需要经过用selenium。经过selenium 阅读全文

posted @ 2018-04-22 21:24 骑者赶路阅读(177) 评论(0) 推荐(0) 编辑

js中的clientHeight和offsetHeight的区别如

摘要：如图所示：阅读全文

posted @ 2018-04-21 17:44 骑者赶路阅读(314) 评论(0) 推荐(0) 编辑

scrapy爬取用户信息 ---崔志才

摘要：这个实例还是值得多次看的其流程图如下，还是有一点绕的。总结： 1 Requst(rul=' xxx ',callback= ' ')，仅仅发起某个网页的访问请求，没啥了。剩下的交给回调函数 2 parse_()。对某个页面经过下载后的数据进行处理，包括逻辑判断，有可能比较复杂，提取想阅读全文

posted @ 2018-04-20 22:57 骑者赶路阅读(329) 评论(0) 推荐(0) 编辑

scrapy之download middleware

摘要：官方文档：https://docs.scrapy.org/en/latest/topics/downloader-middleware.html 一 write your own downloader middleware process_request(request,spider) return 阅读全文

posted @ 2018-04-19 22:15 骑者赶路阅读(131) 评论(0) 推荐(0) 编辑

远程采集

摘要：一为什么要用远程服务器两个目的：对更大计算能力和灵活性的需求和对可变IP地址的需求 1 避免IP地址被封杀建立网络爬虫的第一原则是：所有的信息都可以伪造。你可以用非本人的邮箱发送邮件，通过命令行自动化鼠标的行为。但有一件事情是不能作假的，那就是你的IP地址。阻止网站被采集的注意力主要集中阅读全文

posted @ 2018-04-19 18:23 骑者赶路阅读(155) 评论(0) 推荐(0) 编辑

常见的表单安全措施及应对策略

摘要：一隐含输入字段值字段的值对浏览器可见，但是对用户不可见。隐含字段主要用于阻止爬虫自动提交表单。用隐含字段阻止网络数据采集的方式主要有两种：第一种是表单页面上的一个字段可以用服务器生成的随机变量表示。如果提交时这个值不在表单处理页面上，服务器就有理由认为这个提交不是从原始表单页面上提交的，而是阅读全文

posted @ 2018-04-19 17:44 骑者赶路阅读(446) 评论(0) 推荐(0) 编辑

处理登录和cookie

摘要：做法 1：可以一步一步cookies，毫无疑问，这非常麻烦。做法 2 ： requests库自带的session模块完美解决这个问题。阅读全文

posted @ 2018-04-19 16:48 骑者赶路阅读(104) 评论(0) 推荐(0) 编辑

Python图像处理库PIL从入门到精通

摘要：https://blog.csdn.net/column/details/pythonpil.html 示例：输出： a.jpg ag.jpg b.jpg 阅读全文

posted @ 2018-04-19 15:35 骑者赶路阅读(189) 评论(0) 推荐(0) 编辑

pytesseract的使用

摘要：首先，先安装好Tesseract软件，pytesseract模块问题 1 ：FileNotFoundError: [WinError 2] 系统找不到指定的文件。加上这行代码方法 1 image_to_string() 输出：阅读全文

posted @ 2018-04-19 15:00 骑者赶路阅读(178) 评论(0) 推荐(0) 编辑

验证码处理

摘要：验证码（CAPTCHA）的全称为全自动区分计算机和人类的公开图灵测试阅读全文

posted @ 2018-04-19 14:50 骑者赶路阅读(84) 评论(0) 推荐(0) 编辑

表单编码 appliation/x-www-form-urlencoded 与 multipart/form-data 的区别

摘要：当表单使用POST方法时，表单数据提交到服务器端之前有两种编码类型可供选择。默认编码类型为 application/x-www-form-urlencoded，此时所有非字母数字类型的字符都需要转换为十六进制的ASCII值，但是如果表单中包含大量非字母数字类型的字符时，这种编码类型的效率就会非常低，阅读全文

posted @ 2018-04-19 13:48 骑者赶路阅读(242) 评论(0) 推荐(0) 编辑

python中的 __xxx__ 方法

摘要：1 __class__ instance.__class__ The class to which a class instance belongs 输出： 2 __name__ definition.__name__ The name of the class, function, method, 阅读全文

posted @ 2018-04-19 13:30 骑者赶路阅读(299) 评论(0) 推荐(0) 编辑

scrapy之小试身手

摘要：要爬取的网址是：http://quotes.toscrape.com/ 磕磕绊绊的写完了 spiders Pipeline 收获： 1 这里都是类，完全可以定义__init__，完全可以把一些数据添加到其静态属性。阅读全文

posted @ 2018-04-18 23:58 骑者赶路阅读(111) 评论(0) 推荐(0) 编辑

scrapy之Pipeline

摘要：官方文档：https://docs.scrapy.org/en/latest/topics/item-pipeline.html 激活pipeline，需要在settings里配置，然而这里配置的pipeline会作用于所有的spider。加入项目中有很多spider在运行。item pipelin 阅读全文

posted @ 2018-04-18 19:27 骑者赶路阅读(338) 评论(0) 推荐(0) 编辑

scrapy之spiders

摘要：官方文档：https://docs.scrapy.org/en/latest/topics/spiders.html# 一句话总结：spider是定义爬取的动作（是否跟进新的链接）及分析网页结构（提取数据，返回item）的地方。一 scrapy.Spider 1 name 2 allowed_do 阅读全文

posted @ 2018-04-18 15:39 骑者赶路阅读(131) 评论(0) 推荐(0) 编辑

scrapy之Selectors

摘要：练习url：https://doc.scrapy.org/en/latest/_static/selectors-sample1.html 一获取文本值 xpath css 注：可以省略写成:response.xpath() 二获取属性值 xpath css 注: 可以省略写成：response 阅读全文

posted @ 2018-04-18 14:18 骑者赶路阅读(130) 评论(0) 推荐(0) 编辑

scrapy介绍及源码分析

摘要：一简介 Scrapy基于事件驱动网络框架 Twisted 编写。因此，Scrapy基于并发性考虑由非阻塞(即异步)的实现。官方文档：https://docs.scrapy.org/en/latest/topics/architecture.html 最重要的是理解 Data flow。别人的阅读全文

posted @ 2018-04-18 11:38 骑者赶路阅读(193) 评论(0) 推荐(0) 编辑

scrapy框架之comand line tool

摘要：一 Global Command 1 startproject https://docs.scrapy.org/en/latest/topics/commands.html#startproject 2 scrapy genspider -t basic baidu www.baidu.com ht 阅读全文

posted @ 2018-04-17 20:19 骑者赶路阅读(92) 评论(0) 推荐(0) 编辑

CSS选择器与XPath语言

摘要：一在爬取页面信息的过程中，需要到想要的信息进行定位，主要有两种方法。CSS选择器和XPath语言。查找某一个标签，两种方法都可以做到。二 CSS选择器 http://www.w3school.com.cn/cssref/css_selectors.asp 伪类选择器（a:hover） http 阅读全文

posted @ 2018-04-17 12:01 骑者赶路阅读(124) 评论(0) 推荐(0) 编辑

Selenium之Web页面滚动条滚操作

摘要：原文博客地址：https://blog.csdn.net/jlminghui/article/details/50477283 阅读全文

posted @ 2018-04-15 20:43 骑者赶路阅读(411) 评论(0) 推荐(0) 编辑

Selenium+Chrome+PhantomJS 爬取淘宝

摘要：https://github.com/factsbenchmarks/taobao-jingdong 一简单铺垫 Selenium负责驱动浏览器与python对接 PhantomJS负责渲染解析JavaScript 二函数单独一个函数，传一个参数页码，实现跳转到该指定页面的功能。获取某页码阅读全文

posted @ 2018-04-15 17:27 骑者赶路阅读(286) 评论(0) 推荐(0) 编辑

爬取今日头条中的图片

摘要：代码：https://github.com/factsbenchmarks/jinritoutiao 今日头条搜索：cos. 网址：https://www.toutiao.com/search/?keyword=cos 分析1 在network的doc中的Preview，看到只有一句话，并没有页面阅读全文

posted @ 2018-04-13 16:26 骑者赶路阅读(702) 评论(0) 推荐(0) 编辑

django 和 mongdb 写一个简陋的网址，以及用django内置的分页功能

摘要：https://github.com/factsbenchmarks/simple_websit_about_58 一设置数据库的设置在settings文件中加入这样一段代码：说明：xxx 是某个数据库的名称。二定义models 说明：推荐继承DynamicDocument类。相关联的表阅读全文

posted @ 2018-04-12 19:27 骑者赶路阅读(128) 评论(0) 推荐(0) 编辑

charts 画饼图

摘要：统计某一天某类物体的百分比新知识点：aggregate https://blog.csdn.net/congcong68/article/details/51619882 主要的 $group $match $sort $limit 阅读全文

posted @ 2018-04-11 19:08 骑者赶路阅读(148) 评论(0) 推荐(0) 编辑

charts 画折线图

摘要：主题：指定日期内，不同地区的发布信息的数量的变化曲线数据库是mongod 数据是58同城的发布的信息整体思路： 1由于从数据库中拿到的数据，格式等方面并不一样能完全满足需求，需要对数据库中的数据进行整理 2 更新数据库 3 数据可视化出发点：从哪天开始，到哪天结束具体区域追求点：以上区阅读全文

posted @ 2018-04-11 15:36 骑者赶路阅读(203) 评论(0) 推荐(0) 编辑

mongo 操作符

摘要：1 $unset The $unset operator deletes a particular field。 https://docs.mongodb.com/manual/reference/operator/update/unset/ 2 $in The $in operator selec 阅读全文

posted @ 2018-04-11 15:27 骑者赶路阅读(174) 评论(0) 推荐(0) 编辑

charts jupyter notebook 画简单的柱状图

摘要：数据库是mongdb 数据是58同城上发的转手记录一为了保证数据安全，对需要进行处理的数据进行拷贝。二对数据库中的数据进行处理不要想着将数据拿出来，处理完后，在一一对应放到数据库中！原本数据库中的地址存储的格式是：北京-昌平，北京-通州，需要拿到具体的某个区。在jupyter note 阅读全文

posted @ 2018-04-10 22:26 骑者赶路阅读(2003) 评论(0) 推荐(0) 编辑

多进程爬取58同城二手市场

摘要：github网址： 58同城二手市场官网，以北京为例：http://bj.58.com/sale.shtml 通过查看前端代码，可以看出，每一类商品都是在 http://bj.58.com/ 后面加上相关英文字符。比如查找苹果手机，其url是 http://bj.58.com/iphonesj/。阅读全文

posted @ 2018-04-10 12:31 骑者赶路阅读(166) 评论(0) 推荐(0) 编辑

BeautifulSoup

摘要：一 select方法与find_all()方法的区别 select 是css selector按照css规则匹配 find_all() 是按标签和属性参数来匹配阅读全文

posted @ 2018-04-09 11:41 骑者赶路阅读(91) 评论(0) 推荐(0) 编辑

转 Mongodb数据导出命令mongoexport和导入命令mongoimport介绍

摘要：https://blog.csdn.net/qq_16399991/article/details/70473858 阅读全文

posted @ 2018-04-08 22:48 骑者赶路阅读(109) 评论(0) 推荐(0) 编辑

mongodb的安装及环境配置

摘要：一下载官网：https://fastdl.mongodb.org/win32/mongodb-win32-x86_64-2008plus-ssl-3.6.3-signed.msi 官网可能打不开，将这个网址直接拉到迅雷里下载。二环境配置文件层级结构 Mongdb>Server>3.6>bi 阅读全文

posted @ 2018-04-08 21:25 骑者赶路阅读(138) 评论(0) 推荐(0) 编辑

网易公开课之爬虫

摘要：1 利用jupyter notebook写代码 2 在jupyter notebook页面，有快捷方式，可以在help中设置。 3 BeautifulSoup的常用方法输出： select('#id span p ') 输出： .contents，contents 属性可以将tag的子节点以列表的阅读全文

posted @ 2018-04-02 17:27 骑者赶路阅读(409) 评论(0) 推荐(0) 编辑

Failed building wheel for Twisted

摘要：在安装scrapy框架的过程中，pip install scrapy 出现报错信息： building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is required. Get it with "Microso 阅读全文

posted @ 2018-04-02 10:32 骑者赶路阅读(1426) 评论(0) 推荐(0) 编辑

04 2018 档案

公告