2018年1月24日
摘要: 基础爬虫框架主要包括五大模块,分别为爬虫调度器、url管理器、HTML下载器、HTML解析器、数据存储器。 1:爬虫调度器主要负责统筹其他四个模块的协调工作 2: URL管理器负责管理URL连接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口 3: HTML下载器用于从UR 阅读全文
posted @ 2018-01-24 18:30 paulversion 阅读(739) 评论(0) 推荐(0) 编辑
摘要: #coding:utf-8from email.header import Headerfrom email.mime.text import MIMETextfrom email.utils import parseaddr,formataddrimport smtplib def _fromat 阅读全文
posted @ 2018-01-24 15:44 paulversion 阅读(209) 评论(0) 推荐(0) 编辑