立业的博客 - 博客园

2019年6月18日

摘要：命令行 Item 阅读全文

posted @ 2019-06-18 16:43 立业的博客阅读(165) 评论(0) 推荐(0) 编辑

摘要： scrapy支持命令行模式，它提供了一套命令集，每个命令都有不同的参数和可选项关于配置的设定 Scrapy会在scrapy.cfg文件查找配置参数，该文件位于scrapy project的根目录下配置参数有不同的有效范围 system-wide user-wide project-wide 优先阅读全文

posted @ 2019-06-18 16:36 立业的博客阅读(455) 评论(0) 推荐(0) 编辑

2019年6月17日

Item

摘要：抓取的主要目标是从非结构化源(通常是网页)中提取结构化数据 ScrapySpider可以以python字典的形式返回提取的数据，这很方便和熟悉但python dicts缺乏结构，很容易在字段名中输入错误或返回不一致的数据，特别是在有许多spider的大型项目中若要定义公共输出数据格式，scrap 阅读全文

posted @ 2019-06-17 17:16 立业的博客阅读(1422) 评论(0) 推荐(0) 编辑

2019年6月14日

正则表达式

摘要：正则表达式是一种用来匹配字符串的强有力的武器其设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，就认为匹配，否则就是不匹配判断一个字符串是否是匹配的方法是 1) 创建一个匹配的正则表达式 2) 用该正则表达式去匹配输入来判断是否匹配在正则表达式中，如果直接给出字符，就是阅读全文

posted @ 2019-06-14 14:53 立业的博客阅读(263) 评论(0) 推荐(0) 编辑

2019年6月13日

logging

摘要： logging不会抛出错误，而且可以输出到文件虽然用IDE调试起来比较方便，但是最后你会发现，logging才是终极武器 logging的好处： 1) 允许指定记录信息的级别，有debug，info，warning，error等几个级别当指定level=INFO时，logging.debug就不阅读全文

posted @ 2019-06-13 17:51 立业的博客阅读(233) 评论(0) 推荐(0) 编辑

断言

摘要：凡是用print()来辅助查看的地方，都可以用断言(assert)来替代使用assert和print()都可以打印信息，但是assert的好处就是如果不想输出信息到控制台时，可以通过设定参数-O的方式来禁止输出信息而print()却只能通过注释的方式来禁止输出使用断言如果断言失败，asser 阅读全文

posted @ 2019-06-13 17:49 立业的博客阅读(461) 评论(0) 推荐(0) 编辑

print打印

摘要： print打印输出的优点是简单直接粗暴有效，就是用print()把可能有问题的变量打印出来看看缺点是将来还得删掉它，想想程序里到处都是print()，运行结果也会包含很多垃圾信息 ____________________________________________________________ 阅读全文

posted @ 2019-06-13 17:46 立业的博客阅读(221) 评论(0) 推荐(0) 编辑

抛出错误

摘要：因为错误也是一个类，捕获一个错误就是捕获到该类的一个实例因此，错误并不是凭空产生的，而是有意创建并抛出的 Python的内置函数会抛出很多类型的错误，自定义函数也可抛出错误自定义错误如果要抛出错误，首先根据需要，可以定义一个错误类，选择好继承关系，然后，用raise语句抛出一个错误的实例必要阅读全文

posted @ 2019-06-13 16:41 立业的博客阅读(301) 评论(0) 推荐(0) 编辑

记录错误

摘要：如果不捕获错误，自然可以让Python解释器来打印出错误堆栈，但程序也被结束了既然能捕获错误，就可以把错误堆栈打印出来，然后分析错误原因，同时，让程序继续执行下去 logging模块 Python内置的logging模块可以非常容易地记录错误信息通过配置，logging还可以把错误记录到日志文件阅读全文

posted @ 2019-06-13 11:36 立业的博客阅读(212) 评论(0) 推荐(0) 编辑

调用栈

摘要：如果错误没有被捕获，它就会一直往上抛，最后被Python解释器捕获，打印一个错误信息，然后程序退出通过错误信息，可以追根溯源查到最终的错误原因阅读全文

posted @ 2019-06-13 11:32 立业的博客阅读(141) 评论(0) 推荐(0) 编辑