ner的回忆与暂别
最近在做一些ner方面的工作,想到了一些小细节,这里回顾记录一下自己之前工作中用到的一些小技巧,主要是通过数据增强和训练策略做一些小提升。后面估计主要工作研究点放大模型和知识图谱了,记录一下原始的
数据集的采集:
-
很多项目没有数据集,那么就需要我们去找一些数据集,数据集的一些网站如下:
-
数据增强技巧
- 同类型实体随机替换,当实体全集足够全足够多的时候,那么效果肯定是最好的
- 实体随机MASK,实体根据语句长度随机删除实体中的字
- 实体拼接,拼接同类实体能够增多实体的识别
- 训练的时候动态加载替换的实体,那么语料中10个实体训练一轮中随机替换一次能够换一次实体
- 随机删除全是“O”的语句中的一些停用词,或者一定概率删除全是“O”的语句