2019 年 5月 16 日随笔档案 - 海纳百川_有容乃大

scrapy 开发流程

摘要：一、Spider 开发流程实现一个 Spider 子的过程就像是完成一系列的填空题，Scrapy 框架提出以下问题让用户在Spider 子类中作答： 1、爬虫从哪个或者那些页面开始爬取? 2、对于一个已下载的页面，提取其中的那些数据？ 3、爬取完当前页面后，接下来爬取哪个或那些页面？上面问题的答阅读全文

posted @ 2019-05-16 16:20 海纳百川_有容乃大阅读(192) 评论(0) 推荐(0) 编辑

scrapy 中没有 crawl 命令

摘要：确保两点： 1、把爬虫.py 复制到 spider 文件夹里如执行 scrapy crawl demo.py （spiders 中就要有 demo.py 文件） 2、在项目文件夹内执行命令在 scrapy.cfg 所在文件夹里执行命令阅读全文

posted @ 2019-05-16 14:45 海纳百川_有容乃大阅读(618) 评论(0) 推荐(0) 编辑

scrapy（创建scrapy工程）报错：“ ImportError：DLL load failed：找不到指定的模块”

摘要：先要确定什么模块找不到解决方法 windowa环境下加（ --user） pip install -I cryptography --user 阅读全文

posted @ 2019-05-16 14:37 海纳百川_有容乃大阅读(548) 评论(0) 推荐(0) 编辑

NoSQL 是什么

摘要： NoSQL 全称 Not only SQL ，是一种相对较新的数据库设计方式，传统的关系型数据库使用的是固定模式，并将数据分割在多个表中，然而，对于大数据集的情况，数据量太大使其难以存放在单一的服务器中，此时就需要扩展到多台服务器。不过，关系迷行对于这种扩展的支持并不够好，因为在查询多个表时，数据可阅读全文

posted @ 2019-05-16 11:02 海纳百川_有容乃大阅读(249) 评论(0) 推荐(0) 编辑

Lxml

摘要： Lxml 是基于 libxml2 这一 XML解析库的 Python 封装。该模块使用 C 语言编写，解析速度比 Beautiful Soup 更快，不过安装过程也更为复杂，最新的安装说明可以参考 http;//Lxml.de/indtallation.html. 和 Beautiful Soup 阅读全文

posted @ 2019-05-16 10:41 海纳百川_有容乃大阅读(267) 评论(0) 推荐(0) 编辑

Beautiful Soup

摘要： Beautiful Soup 是一个非常流行的 Python 模块，该模块可以解析网页，并提供定位内容的便捷接口，如果你还没有安装该模块，可以使用下面的命令安装其最新版本：使用 Beautiful Soup 的第一步是将已下载的 HTML 内容解析为 soup 文档。由于大多数网页都不具备良好的阅读全文

posted @ 2019-05-16 10:14 海纳百川_有容乃大阅读(176) 评论(0) 推荐(0) 编辑

python 网络爬虫（三）

摘要：一、网站地图爬虫在一个简单的爬虫中，我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站，为了解析网站地图，我们将会使用一个简单的正则表达式，从<loc>标签中提取 URL，但是，我们无法使用呢sitemap 文件提供每个网页的连接二、 ID 遍历爬虫我们将利用网站阅读全文

posted @ 2019-05-16 09:43 海纳百川_有容乃大阅读(131) 评论(0) 推荐(0) 编辑