摘要: 第三百二十七节,web爬虫讲解2—urllib库爬虫 利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode("utf-8")将字节转化成字符串 正则获取页面指定内容 urlretrieve()将网络文件下载保存 阅读全文
posted @ 2017-07-25 19:08 林贵秀 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 第三百二十六节,web爬虫,scrapy模块,解决重复url——自动递归url 一般抓取过的url不重复抓取,那么就需要记录url,判断当前URL如果在记录里说明已经抓取过了,如果不存在说明没抓取过 记录url可以是缓存,或者数据库,如果保存数据库按照以下方式: id URL加密(建索引以便查询) 阅读全文
posted @ 2017-07-25 11:52 林贵秀 阅读(1722) 评论(0) 推荐(0) 编辑