2018 年 7月 20 日随笔档案 - 秦皇汉武

2018年7月20日

7 爬虫爬取网页文章（保留图片和文本顺序，原封不动）的数据库设计，且避免重复抓取

摘要： 1 设计思考 1.1 关于爬取文章存储的思考第一，文章要抓取到本地；第二，查询文件大小，如果文件过大，超出多少M，则新建一个主题文件比如：file="./"+"微信文章_"+key+编号+".html"。我从多个html中提取信息，然后写入到同一个html中。（可以参见精通python网络爬虫的阅读全文

posted @ 2018-07-20 10:17 秦皇汉武阅读(9185) 评论(0) 推荐(0) 编辑

秦皇汉武

公告