2019年5月16日

scrapy 开发流程

摘要: 一、Spider 开发流程 实现一个 Spider 子的过程就像是完成一系列的填空题,Scrapy 框架提出以下问题让用户在Spider 子类中作答: 1、爬虫从哪个或者那些页面开始爬取? 2、对于一个已下载的页面,提取其中的那些数据? 3、爬取完当前页面后,接下来爬取哪个或那些页面? 上面问题的答 阅读全文

posted @ 2019-05-16 16:20 海纳百川_有容乃大 阅读(192) 评论(0) 推荐(0) 编辑

scrapy 中没有 crawl 命令

摘要: 确保两点: 1、把爬虫.py 复制到 spider 文件夹里 如 执行 scrapy crawl demo.py (spiders 中就要有 demo.py 文件) 2、在项目文件夹内执行命令 在 scrapy.cfg 所在文件夹里执行命令 阅读全文

posted @ 2019-05-16 14:45 海纳百川_有容乃大 阅读(618) 评论(0) 推荐(0) 编辑

scrapy(创建scrapy工程)报错:“ ImportError:DLL load failed:找不到指定的模块”

摘要: 先要确定什么模块找不到 解决方法 windowa环境下加 ( --user) pip install -I cryptography --user 阅读全文

posted @ 2019-05-16 14:37 海纳百川_有容乃大 阅读(548) 评论(0) 推荐(0) 编辑

NoSQL 是什么

摘要: NoSQL 全称 Not only SQL ,是一种相对较新的数据库设计方式,传统的关系型数据库使用的是固定模式,并将数据分割在多个表中,然而,对于大数据集的情况,数据量太大使其难以存放在单一的服务器中,此时就需要扩展到多台服务器。不过,关系迷行对于这种扩展的支持并不够好,因为在查询多个表时,数据可 阅读全文

posted @ 2019-05-16 11:02 海纳百川_有容乃大 阅读(249) 评论(0) 推荐(0) 编辑

Lxml

摘要: Lxml 是基于 libxml2 这一 XML解析库的 Python 封装。该模块使用 C 语言编写,解析速度比 Beautiful Soup 更快,不过安装过程也更为复杂,最新的安装说明可以参考 http;//Lxml.de/indtallation.html. 和 Beautiful Soup 阅读全文

posted @ 2019-05-16 10:41 海纳百川_有容乃大 阅读(267) 评论(0) 推荐(0) 编辑

Beautiful Soup

摘要: Beautiful Soup 是一个非常流行的 Python 模块,该模块可以解析网页,并提供定位内容的便捷接口,如果你还没有安装该模块,可以使用下面的命令安装其最新版本: 使用 Beautiful Soup 的第一步是将已下载的 HTML 内容解析为 soup 文档。由于大多数网页都不具备良好的 阅读全文

posted @ 2019-05-16 10:14 海纳百川_有容乃大 阅读(176) 评论(0) 推荐(0) 编辑

python 网络爬虫(三)

摘要: 一、网站地图爬虫 在一个简单的爬虫中,我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站,为了解析网站地图,我们将会使用一个简单的正则表达式,从<loc>标签中提取 URL, 但是 ,我们无法使用呢sitemap 文件提供每个网页的连接 二、 ID 遍历爬虫 我们将利用网站 阅读全文

posted @ 2019-05-16 09:43 海纳百川_有容乃大 阅读(131) 评论(0) 推荐(0) 编辑

导航