ner的回忆与暂别

最近在做一些ner方面的工作，想到了一些小细节，这里回顾记录一下自己之前工作中用到的一些小技巧，主要是通过数据增强和训练策略做一些小提升。后面估计主要工作研究点放大模型和知识图谱了，记录一下原始的

数据集的采集：

很多项目没有数据集，那么就需要我们去找一些数据集，数据集的一些网站如下：
数据增强技巧
- 同类型实体随机替换，当实体全集足够全足够多的时候，那么效果肯定是最好的
- 实体随机MASK，实体根据语句长度随机删除实体中的字
- 实体拼接，拼接同类实体能够增多实体的识别
- 训练的时候动态加载替换的实体，那么语料中10个实体训练一轮中随机替换一次能够换一次实体
- 随机删除全是“O”的语句中的一些停用词，或者一定概率删除全是“O”的语句

posted @ 2023-10-12 16:36 时光如你般美好阅读(11) 评论(0) 编辑收藏举报

刷新页面返回顶部

、