摘要: 通过遍历全网url 实现爬取全网内容 忽略“.doc"等文件网页暂不处理,只爬取整个页面,不做清洗 spider.py # -*- coding: utf-8 -*- import scrapy from WSYU.items import WsyuItem import datetime from 阅读全文
posted @ 2018-09-27 22:52 大长胡子 阅读(664) 评论(0) 推荐(0) 编辑