上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 18 下一页

2019年5月16日

scrapy 开发流程

摘要: 一、Spider 开发流程 实现一个 Spider 子的过程就像是完成一系列的填空题,Scrapy 框架提出以下问题让用户在Spider 子类中作答: 1、爬虫从哪个或者那些页面开始爬取? 2、对于一个已下载的页面,提取其中的那些数据? 3、爬取完当前页面后,接下来爬取哪个或那些页面? 上面问题的答 阅读全文

posted @ 2019-05-16 16:20 海纳百川_有容乃大 阅读(192) 评论(0) 推荐(0) 编辑

scrapy 中没有 crawl 命令

摘要: 确保两点: 1、把爬虫.py 复制到 spider 文件夹里 如 执行 scrapy crawl demo.py (spiders 中就要有 demo.py 文件) 2、在项目文件夹内执行命令 在 scrapy.cfg 所在文件夹里执行命令 阅读全文

posted @ 2019-05-16 14:45 海纳百川_有容乃大 阅读(618) 评论(0) 推荐(0) 编辑

scrapy(创建scrapy工程)报错:“ ImportError:DLL load failed:找不到指定的模块”

摘要: 先要确定什么模块找不到 解决方法 windowa环境下加 ( --user) pip install -I cryptography --user 阅读全文

posted @ 2019-05-16 14:37 海纳百川_有容乃大 阅读(548) 评论(0) 推荐(0) 编辑

NoSQL 是什么

摘要: NoSQL 全称 Not only SQL ,是一种相对较新的数据库设计方式,传统的关系型数据库使用的是固定模式,并将数据分割在多个表中,然而,对于大数据集的情况,数据量太大使其难以存放在单一的服务器中,此时就需要扩展到多台服务器。不过,关系迷行对于这种扩展的支持并不够好,因为在查询多个表时,数据可 阅读全文

posted @ 2019-05-16 11:02 海纳百川_有容乃大 阅读(249) 评论(0) 推荐(0) 编辑

Lxml

摘要: Lxml 是基于 libxml2 这一 XML解析库的 Python 封装。该模块使用 C 语言编写,解析速度比 Beautiful Soup 更快,不过安装过程也更为复杂,最新的安装说明可以参考 http;//Lxml.de/indtallation.html. 和 Beautiful Soup 阅读全文

posted @ 2019-05-16 10:41 海纳百川_有容乃大 阅读(267) 评论(0) 推荐(0) 编辑

Beautiful Soup

摘要: Beautiful Soup 是一个非常流行的 Python 模块,该模块可以解析网页,并提供定位内容的便捷接口,如果你还没有安装该模块,可以使用下面的命令安装其最新版本: 使用 Beautiful Soup 的第一步是将已下载的 HTML 内容解析为 soup 文档。由于大多数网页都不具备良好的 阅读全文

posted @ 2019-05-16 10:14 海纳百川_有容乃大 阅读(176) 评论(0) 推荐(0) 编辑

python 网络爬虫(三)

摘要: 一、网站地图爬虫 在一个简单的爬虫中,我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站,为了解析网站地图,我们将会使用一个简单的正则表达式,从<loc>标签中提取 URL, 但是 ,我们无法使用呢sitemap 文件提供每个网页的连接 二、 ID 遍历爬虫 我们将利用网站 阅读全文

posted @ 2019-05-16 09:43 海纳百川_有容乃大 阅读(131) 评论(0) 推荐(0) 编辑

2019年5月15日

python 网络爬虫(二)

摘要: 一、编写第一个网络爬虫 为了抓取网站,我们需要下载含有感兴趣的网页,该过程一般被称为爬取(crawling)。爬取一个网站有多种方法,而选择哪种方法更加合适,则取决于目标网站的结构。 首先探讨如何安全的下载网页,让后介绍3中爬去网站的常见方法: -- 爬取网站地图; -- 遍历每个网页的数据库 ID 阅读全文

posted @ 2019-05-15 17:34 海纳百川_有容乃大 阅读(157) 评论(0) 推荐(0) 编辑

python 网络爬虫(一)

摘要: 一、识别网站所用技术 构建网站所使用的技术类型也会对我们如何爬取产生影响。有一个十分有用的工具可以检查网站构建的技术类型 builtwith模块。该模块的安装如下 该模块将url作为参数,下载该 url 并其进行分析,返回该网站的技术。 从上面返回的结果可以看出,使用的框架是java 的 Twitt 阅读全文

posted @ 2019-05-15 16:54 海纳百川_有容乃大 阅读(166) 评论(0) 推荐(0) 编辑

python 爬虫原理

摘要: 简单来说互联网是由一个个站点和网络组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前: 一、爬虫是什么? 如果我们把互联网比作是一张蜘蛛网,数据便是存放在蜘蛛网的各个节点,而爬虫就是一直小蜘蛛, 沿着网络抓取自 阅读全文

posted @ 2019-05-15 15:11 海纳百川_有容乃大 阅读(159) 评论(0) 推荐(0) 编辑

上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 18 下一页

导航