会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
/*自定义导航栏*/
机器学习和自然语言处理
-- 君子慎独,修身律己。飓风过岗,伏草唯存。
博客园
首页
新随笔
联系
管理
2019年4月30日
如何使用正则做文本数据的清洗(附免费AI视频福利)
摘要: 数据清理指删除、更正错误、不完整、格式有误或多余的数据。数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。本章首先介绍了新闻语料的基本情况及语料构建的相关原则;然后,回顾对比递归遍历与生成器遍历,打造一款高效的文件读取工具;最后,结合正则数据清洗方法完成新闻语料的批量处理。(本文原创,转载标明出处)
阅读全文
posted @ 2019-04-30 10:11 伏草惟存
阅读(4946)
评论(0)
推荐(0)
编辑