摘要: 爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器”网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”网页解析器:解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指 阅读全文
posted @ 2017-10-25 20:47 软测小生 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 初学Python时,看到很多不懂得东西,比如 pip, 是python 包管理工具,pip是easy_install的取代。 Distribute是对标准库disutils模块的增强,我们知道disutils主要是用来更加容易的打包和分发包,特别是对其他的包有依赖的包。 Distribute被创建是 阅读全文
posted @ 2017-10-25 19:54 软测小生 阅读(1295) 评论(0) 推荐(0) 编辑
摘要: SyntaxError: Non-ASCII character ‘\xe5′ in file 在写一个小脚本,运行起来总是出现这个错误 查了下Python的默认编码文件是用的ASCII码,你将文件存成了UTF-8也没用,解决办法很简单 只要在文件开头加入 # -*- coding: UTF-8 - 阅读全文
posted @ 2017-10-25 14:03 软测小生 阅读(155) 评论(0) 推荐(0) 编辑