会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
静悟生慧
博客园
首页
新随笔
联系
订阅
管理
2019年7月2日
NLP 文本预处理
摘要: 1、不同类别文本量统计,类别不平衡差异 2、文本长度统计 3、文本处理,比如文本语料中简体与繁体共存,这会加大模型的学习难度。因此,他们对数据进行繁体转简体的处理。 同时,过滤掉了对分类没有任何作用的停用词,从而降低了噪声。 4、上文提到训练数据中,存在严重的样本不均衡问题,如果不对该问题做针对性的
阅读全文
posted @ 2019-07-02 15:47 静悟生慧
阅读(2415)
评论(0)
推荐(0)
编辑
公告