会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
黄某人233
博客园
首页
新随笔
联系
订阅
管理
2021年5月25日
数据清洗(四)
摘要: 词频统计1.对词汇换行情况进行处理由于在英文论文中常常出现一个单词换行的情况,导致有些词汇分裂,因此,在处理文本之前,对这种情况进行处理。处理的思路是:逐行读取纯文本文件,然后横向合并。借助正则表达式对词汇换行的情况进行处理。def open_file(file_path): with open(f
阅读全文
posted @ 2021-05-25 16:23 黄某人233
阅读(86)
评论(0)
推荐(0)
编辑
公告