| | | |

2018年12月17日

摘要： 1.linux基础命令： echo 输出我写的内容 ls 查看当前目录的文件 pwd 查看当前目录 ifconfig 查看网卡信息 grep 过滤 -v 取反 -n man 查看命令的帮助信息 md5sum 加密 ll 显示文件的属性信息 ls -l cp 拷贝文件 whereis 查看命令在哪里阅读全文

posted @ 2018-12-17 14:36 守护式等待阅读(270) 评论(0) 推荐(0) 编辑

middleware

摘要： from collections import defaultdict import logging import pprint from scrapy.exceptions import NotConfigured from scrapy.utils.misc import load_object from scrapy.utils.defer import process_parallel... 阅读全文

posted @ 2018-12-17 14:33 守护式等待阅读(399) 评论(0) 推荐(0) 编辑

scrapy-redis

摘要： Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供阅读全文

posted @ 2018-12-17 14:31 守护式等待阅读(540) 评论(0) 推荐(0) 编辑

CrawlSpiders

摘要： CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com 上一个案例中，我们通过正则表达式，制作了新的url作为Request请求参数，现在我们可以换个花样... class 阅读全文

posted @ 2018-12-17 14:30 守护式等待阅读(300) 评论(1) 推荐(0) 编辑

Spider

摘要： Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编写阅读全文

posted @ 2018-12-17 14:28 守护式等待阅读(570) 评论(0) 推荐(0) 编辑

Scrapy 框架

摘要： Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手阅读全文

posted @ 2018-12-17 14:25 守护式等待阅读(177) 评论(0) 推荐(0) 编辑

Selenium

摘要： Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据我们阅读全文

posted @ 2018-12-17 14:23 守护式等待阅读(470) 评论(0) 推荐(0) 编辑

JSON

摘要：数据提取之JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 P 阅读全文

posted @ 2018-12-17 14:21 守护式等待阅读(253) 评论(0) 推荐(0) 编辑

BeautifulSoup4

摘要： CSS 选择器：BeautifulSoup4 和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树阅读全文

posted @ 2018-12-17 14:20 守护式等待阅读(309) 评论(0) 推荐(0) 编辑

XPath

摘要：什么是XML XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官阅读全文

posted @ 2018-12-17 14:18 守护式等待阅读(200) 评论(0) 推荐(0) 编辑