ner的回忆与暂别
最近在做一些ner方面的工作,想到了一些小细节,这里回顾记录一下自己之前工作中用到的一些小技巧,主要是通过数据增强和训练策略做一些小提升。后面估计主要工作研究点放大模型和知识图谱了,记录一下原始的
数据集的采集:
-
很多项目没有数据集,那么就需要我们去找一些数据集,数据集的一些网站如下:
-
数据增强技巧
- 同类型实体随机替换,当实体全集足够全足够多的时候,那么效果肯定是最好的
- 实体随机MASK,实体根据语句长度随机删除实体中的字
- 实体拼接,拼接同类实体能够增多实体的识别
- 训练的时候动态加载替换的实体,那么语料中10个实体训练一轮中随机替换一次能够换一次实体
- 随机删除全是“O”的语句中的一些停用词,或者一定概率删除全是“O”的语句
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· 百万级群聊的设计实践
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
· 永远不要相信用户的输入:从 SQL 注入攻防看输入验证的重要性