2019 年 7月 2 日随笔档案 - 静悟生慧

2019年7月2日

摘要： 1、不同类别文本量统计，类别不平衡差异 2、文本长度统计 3、文本处理，比如文本语料中简体与繁体共存，这会加大模型的学习难度。因此，他们对数据进行繁体转简体的处理。同时，过滤掉了对分类没有任何作用的停用词，从而降低了噪声。 4、上文提到训练数据中，存在严重的样本不均衡问题，如果不对该问题做针对性的阅读全文

posted @ 2019-07-02 15:47 静悟生慧阅读(2415) 评论(0) 推荐(0) 编辑

静悟生慧

公告