海纳百川_有容乃大

scrapy 开发流程

摘要：一、Spider 开发流程实现一个 Spider 子的过程就像是完成一系列的填空题，Scrapy 框架提出以下问题让用户在Spider 子类中作答： 1、爬虫从哪个或者那些页面开始爬取? 2、对于一个已下载的页面，提取其中的那些数据？ 3、爬取完当前页面后，接下来爬取哪个或那些页面？上面问题的答阅读全文

posted @ 2019-05-16 16:20 海纳百川_有容乃大阅读(192) 评论(0) 推荐(0) 编辑

scrapy 中没有 crawl 命令

摘要：确保两点： 1、把爬虫.py 复制到 spider 文件夹里如执行 scrapy crawl demo.py （spiders 中就要有 demo.py 文件） 2、在项目文件夹内执行命令在 scrapy.cfg 所在文件夹里执行命令阅读全文

posted @ 2019-05-16 14:45 海纳百川_有容乃大阅读(618) 评论(0) 推荐(0) 编辑

scrapy（创建scrapy工程）报错：“ ImportError：DLL load failed：找不到指定的模块”

摘要：先要确定什么模块找不到解决方法 windowa环境下加（ --user） pip install -I cryptography --user 阅读全文

posted @ 2019-05-16 14:37 海纳百川_有容乃大阅读(548) 评论(0) 推荐(0) 编辑

NoSQL 是什么

摘要： NoSQL 全称 Not only SQL ，是一种相对较新的数据库设计方式，传统的关系型数据库使用的是固定模式，并将数据分割在多个表中，然而，对于大数据集的情况，数据量太大使其难以存放在单一的服务器中，此时就需要扩展到多台服务器。不过，关系迷行对于这种扩展的支持并不够好，因为在查询多个表时，数据可阅读全文

posted @ 2019-05-16 11:02 海纳百川_有容乃大阅读(249) 评论(0) 推荐(0) 编辑

Lxml

摘要： Lxml 是基于 libxml2 这一 XML解析库的 Python 封装。该模块使用 C 语言编写，解析速度比 Beautiful Soup 更快，不过安装过程也更为复杂，最新的安装说明可以参考 http;//Lxml.de/indtallation.html. 和 Beautiful Soup 阅读全文

posted @ 2019-05-16 10:41 海纳百川_有容乃大阅读(267) 评论(0) 推荐(0) 编辑

Beautiful Soup

摘要： Beautiful Soup 是一个非常流行的 Python 模块，该模块可以解析网页，并提供定位内容的便捷接口，如果你还没有安装该模块，可以使用下面的命令安装其最新版本：使用 Beautiful Soup 的第一步是将已下载的 HTML 内容解析为 soup 文档。由于大多数网页都不具备良好的阅读全文

posted @ 2019-05-16 10:14 海纳百川_有容乃大阅读(176) 评论(0) 推荐(0) 编辑

python 网络爬虫（三）

摘要：一、网站地图爬虫在一个简单的爬虫中，我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站，为了解析网站地图，我们将会使用一个简单的正则表达式，从<loc>标签中提取 URL，但是，我们无法使用呢sitemap 文件提供每个网页的连接二、 ID 遍历爬虫我们将利用网站阅读全文

posted @ 2019-05-16 09:43 海纳百川_有容乃大阅读(131) 评论(0) 推荐(0) 编辑

python 网络爬虫（二）

摘要：一、编写第一个网络爬虫为了抓取网站，我们需要下载含有感兴趣的网页，该过程一般被称为爬取（crawling）。爬取一个网站有多种方法，而选择哪种方法更加合适，则取决于目标网站的结构。首先探讨如何安全的下载网页，让后介绍3中爬去网站的常见方法： -- 爬取网站地图； -- 遍历每个网页的数据库 ID 阅读全文

posted @ 2019-05-15 17:34 海纳百川_有容乃大阅读(157) 评论(0) 推荐(0) 编辑

python 网络爬虫（一）

摘要：一、识别网站所用技术构建网站所使用的技术类型也会对我们如何爬取产生影响。有一个十分有用的工具可以检查网站构建的技术类型 builtwith模块。该模块的安装如下该模块将url作为参数，下载该 url 并其进行分析，返回该网站的技术。从上面返回的结果可以看出，使用的框架是java 的 Twitt 阅读全文

posted @ 2019-05-15 16:54 海纳百川_有容乃大阅读(166) 评论(0) 推荐(0) 编辑

python 爬虫原理

摘要：简单来说互联网是由一个个站点和网络组成的大网，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的网页呈现我们眼前：一、爬虫是什么？如果我们把互联网比作是一张蜘蛛网，数据便是存放在蜘蛛网的各个节点，而爬虫就是一直小蜘蛛，沿着网络抓取自阅读全文

posted @ 2019-05-15 15:11 海纳百川_有容乃大阅读(159) 评论(0) 推荐(0) 编辑