盘点一个Pandas数据清洗题目

大家好，我是皮皮。

前几天在Python白银交流群有个叫【冻豺】的粉丝问了一道Python清洗数据的问题，这里拿出来给大家分享下，一起学习下。

如何才能把pandas serise里乱七八糟的字符清理干净呢？

这里给出了一个示例的代码，使用了apply和lambda和正则表达式，一气呵成，只需要稍微修改下，匹配自己的数据就可以了。

df['主营业务']=df['主营业务'].astype('str').apply(lambda x: re.sub('[0-9+,，.。…、“”^_?:：’‘''""（）()；;【】!！*？]+', '', x))

不过这个是通用的，也会把数字干掉，如果想适配自己的数据，还需要稍微修改下。

这样问题就完美解决了，另外的话，遇到特殊字符什么的，都可以优先使用re.sub或者replace()函数，事半功倍。

大家好，我是皮皮。这篇文章主要分享了一个Pandas数据清洗题目，针对该问题给出了具体的解析和代码演示，一共两个方法，帮助粉丝顺利解决了问题。相信肯定还有其他方法的，欢迎大家积极尝试，如果有好方法，记得也分享给我噢，我帮助分享到群里，大家一起学习交流！

最后感谢【冻豺】提问，感谢【dcpeng】和【月神】大佬给出的具体解析和代码演示，感谢【冯诚】等人参与学习交流。

小伙伴们，快快用实践一下吧！如果在学习过程中，有遇到任何问题，欢迎加我好友，我拉你进Python学习交流群共同探讨学习。

posted @ 2022-06-08 20:00 dcpeng 阅读(64) 评论(0) 收藏举报

刷新页面返回顶部