04 2018 档案
摘要:Parse命令,Scrapy shell,logging 一 Parse命令 检查spider输出的最基本方法是使用Parse命令。这能让你在函数层上检查spider哥哥部分的效果,其十分灵活并且已用。不过不能在代码中测试。 https://docs.scrapy.org/en/latest/top
阅读全文
摘要:https://blog.csdn.net/done58/article/details/50996680
阅读全文
摘要:一 scrapy添加代理 1 内置代理:os.environ。 固定格式,不推荐 2 自定义代理:通过中间件实现
阅读全文
摘要:一 总结 页面是异步加载,页面滑动的过程中,每张图片的url才显示。所以推荐selenium。同时需要selenium执行js代买,实现页面滚动的效果。就是window.scrollTo()方法。 在用scrapy框架中,并不是所有的request都是需要经过用selenium。经过selenium
阅读全文
摘要:如图所示:
阅读全文
摘要:这个实例还是值得多次看的 其流程图如下,还是有一点绕的。 总结: 1 Requst(rul=' xxx ',callback= ' '),仅仅发起 某个网页 的访问请求,没啥了。剩下的交给回调函数 2 parse_()。对 某个页面 经过下载后的 数据 进行处理,包括逻辑判断,有可能比较复杂,提取想
阅读全文
摘要:官方文档:https://docs.scrapy.org/en/latest/topics/downloader-middleware.html 一 write your own downloader middleware process_request(request,spider) return
阅读全文
摘要:一 为什么要用远程服务器 两个目的:对更大计算能力和灵活性的需求 和 对可变IP地址的需求 1 避免IP地址被封杀 建立网络爬虫的第一原则是:所有的信息都可以伪造。你可以用非本人的邮箱发送邮件,通过命令行自动化鼠标的行为。但有一件事情是不能作假的,那就是你的IP地址。 阻止网站被采集的注意力主要集中
阅读全文
摘要:一 隐含输入字段值 字段的值对浏览器可见,但是对用户不可见。隐含字段主要用于阻止爬虫自动提交表单。 用隐含字段阻止网络数据采集的方式主要有两种: 第一种是表单页面上的一个字段可以用服务器生成的随机变量表示。如果提交时这个值不在表单处理页面上,服务器就有理由认为这个提交不是从原始表单页面上提交的,而是
阅读全文
摘要:做法 1: 可以一步一步cookies,毫无疑问,这非常麻烦。 做法 2 : requests库自带的session模块完美解决这个问题。
阅读全文
摘要:https://blog.csdn.net/column/details/pythonpil.html 示例: 输出: a.jpg ag.jpg b.jpg
阅读全文
摘要:首先,先安装好Tesseract软件,pytesseract模块 问题 1 :FileNotFoundError: [WinError 2] 系统找不到指定的文件。 加上这行代码 方法 1 image_to_string() 输出:
阅读全文
摘要:验证码(CAPTCHA)的全称为 全自动区分计算机和人类的公开图灵测试
阅读全文
摘要:当表单使用POST方法时,表单数据提交到服务器端之前有两种编码类型可供选择。默认编码类型为 application/x-www-form-urlencoded,此时所有非字母数字类型的字符都需要转换为十六进制的ASCII值,但是如果表单中包含大量非字母数字类型的字符时,这种编码类型的效率就会非常低,
阅读全文
摘要:1 __class__ instance.__class__ The class to which a class instance belongs 输出: 2 __name__ definition.__name__ The name of the class, function, method,
阅读全文
摘要:要爬取的网址是:http://quotes.toscrape.com/ 磕磕绊绊的写完了 spiders Pipeline 收获: 1 这里都是类,完全可以定义__init__,完全可以把一些数据 添加到其静态属性。
阅读全文
摘要:官方文档:https://docs.scrapy.org/en/latest/topics/item-pipeline.html 激活pipeline,需要在settings里配置,然而这里配置的pipeline会作用于所有的spider。加入项目中有很多spider在运行。item pipelin
阅读全文
摘要:官方文档:https://docs.scrapy.org/en/latest/topics/spiders.html# 一句话总结:spider是定义爬取的动作(是否跟进新的链接)及分析网页结构(提取数据,返回item)的地方。 一 scrapy.Spider 1 name 2 allowed_do
阅读全文
摘要:练习url:https://doc.scrapy.org/en/latest/_static/selectors-sample1.html 一 获取文本值 xpath css 注:可以省略写成:response.xpath() 二 获取属性值 xpath css 注: 可以省略写成:response
阅读全文
摘要:一 简介 Scrapy基于事件驱动网络框架 Twisted 编写。因此,Scrapy基于并发性考虑由非阻塞(即异步)的实现。 官方文档 :https://docs.scrapy.org/en/latest/topics/architecture.html 最重要的是理解 Data flow。 别人的
阅读全文
摘要:一 Global Command 1 startproject https://docs.scrapy.org/en/latest/topics/commands.html#startproject 2 scrapy genspider -t basic baidu www.baidu.com ht
阅读全文
摘要:一 在爬取页面信息的过程中,需要到想要的信息进行定位,主要有两种方法。CSS选择器和XPath语言。查找某一个标签,两种方法都可以做到。 二 CSS选择器 http://www.w3school.com.cn/cssref/css_selectors.asp 伪类选择器 (a:hover) http
阅读全文
摘要:原文博客地址:https://blog.csdn.net/jlminghui/article/details/50477283
阅读全文
摘要:https://github.com/factsbenchmarks/taobao-jingdong 一 简单铺垫 Selenium负责驱动浏览器与python对接 PhantomJS负责渲染解析JavaScript 二 函数 单独一个函数,传一个参数 页码,实现跳转到该指定页面的功能。 获取某页码
阅读全文
摘要:代码:https://github.com/factsbenchmarks/jinritoutiao 今日头条搜索 :cos. 网址:https://www.toutiao.com/search/?keyword=cos 分析1 在network的doc中的Preview,看到只有一句话,并没有页面
阅读全文
摘要:https://github.com/factsbenchmarks/simple_websit_about_58 一 设置 数据库的设置 在settings文件中加入这样一段代码: 说明:xxx 是某个数据库的名称。 二 定义models 说明:推荐继承DynamicDocument类。相关联的表
阅读全文
摘要:统计某一天某类物体的百分比 新知识点:aggregate https://blog.csdn.net/congcong68/article/details/51619882 主要的 $group $match $sort $limit
阅读全文
摘要:主题:指定日期内,不同地区的发布信息的数量的变化曲线 数据库是mongod 数据是58同城的发布的信息 整体思路: 1由于从数据库中拿到的数据,格式等方面并不一样能完全满足需求,需要对数据库中的数据进行整理 2 更新数据库 3 数据可视化 出发点: 从哪天开始,到哪天结束 具体区域 追求点: 以上区
阅读全文
摘要:1 $unset The $unset operator deletes a particular field。 https://docs.mongodb.com/manual/reference/operator/update/unset/ 2 $in The $in operator selec
阅读全文
摘要:数据库是mongdb 数据是58同城上发的转手记录 一 为了保证数据安全,对需要进行处理的数据进行拷贝。 二 对数据库中的数据进行处理 不要想着将数据拿出来,处理完后,在一一对应放到数据库中! 原本数据库中的地址存储的格式是:北京-昌平,北京-通州,需要拿到具体的某个区。 在jupyter note
阅读全文
摘要:github网址: 58同城二手市场官网,以北京为例:http://bj.58.com/sale.shtml 通过查看前端代码,可以看出,每一类商品都是在 http://bj.58.com/ 后面加上相关英文字符。比如查找苹果手机,其url是 http://bj.58.com/iphonesj/。
阅读全文
摘要:一 select方法与find_all()方法的区别 select 是css selector按照css规则匹配 find_all() 是按标签和属性参数来匹配
阅读全文
摘要:https://blog.csdn.net/qq_16399991/article/details/70473858
阅读全文
摘要:一 下载 官网:https://fastdl.mongodb.org/win32/mongodb-win32-x86_64-2008plus-ssl-3.6.3-signed.msi 官网可能打不开,将这个网址直接拉到迅雷里下载。 二 环境配置 文件层级结构 Mongdb>Server>3.6>bi
阅读全文
摘要:1 利用jupyter notebook写代码 2 在jupyter notebook页面,有快捷方式,可以在help中设置。 3 BeautifulSoup的常用方法 输出: select('#id span p ') 输出: .contents,contents 属性可以将tag的子节点以列表的
阅读全文
摘要:在安装scrapy框架的过程中,pip install scrapy 出现报错信息: building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is required. Get it with "Microso
阅读全文