摘要: SpiderMain类 SpiderMain是整个爬虫的驱动类 主要做了以下几件事 1.初始化url管理器,初始化html下载器,初始化html分析器,初始化输出器 2.实现 craw 方法 craw方法 它有一个参数 root_url 首先将 root_url 加入到url管理器中,然后进行循环直 阅读全文
posted @ 2018-04-12 23:22 lan126 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 代码 python coding: utf 8 @Author : Lan126 from PIL import Image import argparse 命令行参数处理 parser = argparse.ArgumentParser() parser.add_argument('file') 阅读全文
posted @ 2018-04-12 08:39 lan126 阅读(699) 评论(0) 推荐(0) 编辑