海纳百川_有容乃大

爬虫

摘要：一、什么是爬虫？爬虫：一段从互联网上自动爬取对我们有价值的数据的程序二、Python爬虫架构 Python爬虫架构主要由五个部分组成，分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序（爬取有价值信息的程序）调度器：相当于一台电脑的CPU，主要负责调度 URL 管理器、下载器、解析阅读全文

posted @ 2019-07-03 09:55 海纳百川_有容乃大阅读(174) 评论(0) 推荐(0)

scrapy 和 scrapy-redis

摘要： 1、scrapy 是一个 Python 爬虫框架，爬取效率极高，但是不支持分布式。而 scrapy-redis 时一套基于 redis 数据库、运行在 scrapy 框架之上的组件，可以让 scrapy 支持分布式策略。Slaver 端共享 Master端 redis 数据库里的 item 队列，请阅读全文

posted @ 2019-07-02 16:31 海纳百川_有容乃大阅读(135) 评论(0) 推荐(0)

git pull 之后怎么找回别覆盖掉的内容

摘要：【半夜吓出冷汗，git这个原理还真得好好学学】不小心把本地写的东西pull了下，然后，全部覆盖掉了，以为就这样没了。后面想到有“时光穿梭机”，“历史回滚”，在各大群友的帮助下，终于找回了。 git reflog 命令查看你的历史更改记录 git reset --hard HEAD@{n} (HE 阅读全文

posted @ 2019-07-01 14:21 海纳百川_有容乃大阅读(830) 评论(0) 推荐(0)

新手如何配置 Chromedriver 环境变量

摘要：有一个不错的链接：https://blog.csdn.net/qq_41429288/article/details/80472064 阅读全文

posted @ 2019-06-17 11:20 海纳百川_有容乃大阅读(421) 评论(0) 推荐(0)

爬虫技巧

摘要： https://blog.csdn.net/weixin_42781055/article/details/82886688 阅读全文

posted @ 2019-06-16 11:48 海纳百川_有容乃大阅读(103) 评论(0) 推荐(0)

网络爬虫的几种常见类型

摘要：常见的优秀网络爬虫有一下几种类型： 1.批量型网络爬虫：限制抓取的属性，包括抓取范围，特定目标，限制抓取时间，限制数量以及相知抓取页面，总之明显的特征就是受限， 2.增量网络爬虫（通用爬虫）：与前者相反，没有固定的限制，无休无之直到抓取万所有的数据，这种类型一般用于搜索引擎的网站或程序。 3.垂直阅读全文

posted @ 2019-06-15 14:07 海纳百川_有容乃大阅读(2341) 评论(0) 推荐(0)

下载安装charles并导入证书、使用

摘要：抓包原理 1、截获真实客户端的 HTTPS请求，伪装客户端向真实服务端发送 HTTPS 请求。 2、接受真实服务器响应，用 Charles 自己证书伪装服务端向真实客户端发送内容 3、证书导入看博客：https://blog.csdn.net/qq_42336560/article/details 阅读全文

posted @ 2019-06-14 17:01 海纳百川_有容乃大阅读(369) 评论(0) 推荐(0)

scrapy-redis分布式

摘要： scrapy是python界出名的一个爬虫框架，提取结构性数据而编写的应用框架，可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。虽然scrapy 能做的事情很多，但是要做到大规模的分布式应用则捉襟见肘，有能人改变了 scrapy 的队列调度，将起始网址从 start_urls 里分阅读全文

posted @ 2019-06-08 09:30 海纳百川_有容乃大阅读(129) 评论(0) 推荐(0)

python中 yield 的用法（简单、清晰）

摘要：首先我要吐槽一下，看程序的过程中遇见了yield这个关键字，然后百度的时候，发现没有一个能简单的让我懂的，讲起来真TM的都是头头是道，什么参数，什么传递的，还口口声声说自己的教程是最简单的，最浅显易懂的，我就想问没有有考虑过读者的感受。接下来是正题：首先，如果你还没有对yield有个初步分认识，阅读全文

posted @ 2019-05-28 13:48 海纳百川_有容乃大阅读(146) 评论(0) 推荐(0)

Scrapy 分布式爬取

摘要：由于受到计算机能力和网络带宽的限制，单台计算机运行的爬虫咋爬取数据量较大时，需要耗费很长时间。分布式爬取的思想是“人多力量大”，在网络中的多台计算机同时运行程序，公童完成一个大型爬取任务， Scrapy 本身并不是一个为分布式爬取而设计的框架，但第三方库 scrapy-redis 为基扩展了分布式爬阅读全文

posted @ 2019-05-27 13:20 海纳百川_有容乃大阅读(165) 评论(0) 推荐(0)

爬虫