Python 爬虫不得不说的清洗

今天就聊聊爬虫的清洗，下载网页只是最简单的一个步骤，最让人头疼的是数据的清洗。

为什么要这样说呢，因为爬虫首先是获得数据，清洗是把非结构化的数据转换成结果化的数据，这个时候是最考验人的时候。

如果是国内的网站，清洗工作相对比较简单，因为国内的数据不是那么的凌乱，有一定的规则，我们清洗的时候需要写的规则比较少，对于国外的网站，由于老外崇尚自由，

在他们的网站中最直接的体现就是一个网站可能需要写多套模板，清洗的时候比较麻烦。有什么好的方法去做好清洗的工作吗？

第一：足够的耐心。清洗的时候我们会遇到各种问题，所有要有耐心去做好这件事情。

第二：明确原始数据和目标数据，我觉得这点很重要的，为什么？第一就是原始数据有好多种，如果在前期不知道有哪些原始的数据，当我们写好代码的时候，去运行，这个时候会出现各种报错，我们还得回头去修改自己的代码，带来没必要的麻烦。这个时候可以利用SQL语句 group by 去查询一个字段有哪些类型，然后去写相应的清洗代码

第三：使用 re ，replace，if 合理的搭配，提高清洗地效果。

第四：在编写清洗代码的时候，可以让自己的代码跑起来，一遍写代码，一遍去测试自己的清洗代码是否有错误。我觉得这点很重要，在实际的清洗工作中，这一招是屡试不爽。

第五：我觉得在实际的清洗过程中，保留原始代码是很重要的，所以在下载网页的过程中，很有必要去存储原始网页的信息，清洗的时候遇到漏采的字段，不需要再去下载网页了。

posted @ 2017-12-28 14:42 淋哥阅读(1950) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 提示词工程——AI应用必不可少的技术

公告

昵称：淋哥
园龄： 8年10个月
粉丝： 229
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

英雄莫问出处,富贵当思缘由

Python 爬虫不得不说的清洗

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (338)

随笔档案 (452)

文章分类 (6)

文章档案 (19)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

英雄莫问出处,富贵当思缘由

Python 爬虫 不得不说的 清洗

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (338)

随笔档案 (452)

文章分类 (6)

文章档案 (19)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

Python 爬虫不得不说的清洗