2017 年 7月 25 日随笔档案 - 林贵秀

2017年7月25日

第三百二十七节，web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求

摘要：第三百二十七节，web爬虫讲解2—urllib库爬虫利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode("utf-8")将字节转化成字符串正则获取页面指定内容 urlretrieve()将网络文件下载保存阅读全文

posted @ 2017-07-25 19:08 林贵秀阅读(365) 评论(0) 推荐(0) 编辑

第三百二十六节，web爬虫，scrapy模块,解决重复ur——自动递归url

摘要：第三百二十六节，web爬虫，scrapy模块,解决重复url——自动递归url 一般抓取过的url不重复抓取，那么就需要记录url，判断当前URL如果在记录里说明已经抓取过了，如果不存在说明没抓取过记录url可以是缓存，或者数据库，如果保存数据库按照以下方式： id URL加密(建索引以便查询) 阅读全文

posted @ 2017-07-25 11:52 林贵秀阅读(1722) 评论(0) 推荐(0) 编辑

林贵秀

开始Python之旅

公告