会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
秦皇汉武
博客园
首页
新随笔
联系
订阅
管理
2018年7月20日
7 爬虫爬取网页文章(保留图片和文本顺序,原封不动)的数据库设计,且避免重复抓取
摘要: 1 设计思考 1.1 关于爬取文章存储的思考 第一,文章要抓取到本地; 第二,查询文件大小,如果文件过大,超出多少M,则新建一个主题文件比如:file="./"+"微信文章_"+key+编号+".html"。我从多个html中提取信息,然后写入到同一个html中。(可以参见精通python网络爬虫的
阅读全文
posted @ 2018-07-20 10:17 秦皇汉武
阅读(9185)
评论(0)
推荐(0)
编辑
公告