NLP 语料分类不均衡/数据倾斜/data skew

数据层面：

过抽样

直接复制，即不断复制类别样本数少的类别样本。
插值法：通过对样本归一化，采样，求得样本分布，极值，均值等，然后根据样本分布，极值，均值来生成新样本来扩充样本数目。

欠抽样:

直接删除,随机减少多数类样本的数量。

算法层面：

Weighted loss function，一个处理非平衡数据常用的方法就是设置损失函数的权重，使得少数类判别错误的损失大于多数类判别错误的损失。在python的sk-learn中我们可以使用class_weight参数来设置权重，提高少数类权重，例如设置为多数类的10倍

采用文本生成的方式，解决文本样本不均衡的问题。

本文首先分析样本数少的类别，通过文本句法依赖分析，文本词性标记分析词的相关属性，然后采用同义词替换的方式生成新的文本。

posted @ 2019-11-21 22:22 SENTIMENT_SONNE 阅读(598) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部