点击此处浏览总目录
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 40 下一页
摘要: 命令行 Item 阅读全文
posted @ 2019-06-18 16:43 立业的博客 阅读(165) 评论(0) 推荐(0) 编辑
摘要: scrapy支持命令行模式,它提供了一套命令集,每个命令都有不同的参数和可选项 关于配置的设定 Scrapy会在scrapy.cfg文件查找配置参数,该文件位于scrapy project的根目录下 配置参数有不同的有效范围 system-wide user-wide project-wide 优先 阅读全文
posted @ 2019-06-18 16:36 立业的博客 阅读(455) 评论(0) 推荐(0) 编辑
摘要: 抓取的主要目标是从非结构化源(通常是网页)中提取结构化数据 ScrapySpider可以以python字典的形式返回提取的数据,这很方便和熟悉 但python dicts缺乏结构,很容易在字段名中输入错误或返回不一致的数据,特别是在有许多spider的大型项目中 若要定义公共输出数据格式,scrap 阅读全文
posted @ 2019-06-17 17:16 立业的博客 阅读(1422) 评论(0) 推荐(0) 编辑
摘要: 正则表达式是一种用来匹配字符串的强有力的武器 其设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,就认为匹配,否则就是不匹配 判断一个字符串是否是匹配的方法是 1) 创建一个匹配的正则表达式 2) 用该正则表达式去匹配输入来判断是否匹配 在正则表达式中,如果直接给出字符,就是 阅读全文
posted @ 2019-06-14 14:53 立业的博客 阅读(263) 评论(0) 推荐(0) 编辑
摘要: logging不会抛出错误,而且可以输出到文件 虽然用IDE调试起来比较方便,但是最后你会发现,logging才是终极武器 logging的好处: 1) 允许指定记录信息的级别,有debug,info,warning,error等几个级别 当指定level=INFO时,logging.debug就不 阅读全文
posted @ 2019-06-13 17:51 立业的博客 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 凡是用print()来辅助查看的地方,都可以用断言(assert)来替代 使用assert和print()都可以打印信息,但是assert的好处就是如果不想输出信息到控制台时,可以通过设定参数-O的方式来禁止输出信息 而print()却只能通过注释的方式来禁止输出 使用断言 如果断言失败,asser 阅读全文
posted @ 2019-06-13 17:49 立业的博客 阅读(461) 评论(0) 推荐(0) 编辑
摘要: print打印输出的优点是简单直接粗暴有效,就是用print()把可能有问题的变量打印出来看看缺点是将来还得删掉它,想想程序里到处都是print(),运行结果也会包含很多垃圾信息 ____________________________________________________________ 阅读全文
posted @ 2019-06-13 17:46 立业的博客 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 因为错误也是一个类,捕获一个错误就是捕获到该类的一个实例 因此,错误并不是凭空产生的,而是有意创建并抛出的 Python的内置函数会抛出很多类型的错误,自定义函数也可抛出错误 自定义错误 如果要抛出错误,首先根据需要,可以定义一个错误类,选择好继承关系,然后,用raise语句抛出一个错误的实例 必要 阅读全文
posted @ 2019-06-13 16:41 立业的博客 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 如果不捕获错误,自然可以让Python解释器来打印出错误堆栈,但程序也被结束了 既然能捕获错误,就可以把错误堆栈打印出来,然后分析错误原因,同时,让程序继续执行下去 logging模块 Python内置的logging模块可以非常容易地记录错误信息 通过配置,logging还可以把错误记录到日志文件 阅读全文
posted @ 2019-06-13 11:36 立业的博客 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 如果错误没有被捕获,它就会一直往上抛,最后被Python解释器捕获,打印一个错误信息,然后程序退出 通过错误信息,可以追根溯源查到最终的错误原因 阅读全文
posted @ 2019-06-13 11:32 立业的博客 阅读(141) 评论(0) 推荐(0) 编辑
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 40 下一页