深度学习-提升模型分类性能的几点思考
使用CNN做文本分类已经有一段时间了,之前在封闭式测试集中模型的表现还是不错的。但是,拿到实际环境汇总测试,问题就来了。模型过拟合严重,泛化能力弱。最终带来的结果是,用户体验不佳。
改进的方面:
1)改变字符向量为词向量。实际发现,以字符为单元的模型,在数据量少的情况下(10W以下),更容易过拟合,词向量因具有最小语义单元的特性,能客服该问题
2)加入预处理工作。主要是去表情符,以“/微笑”等形式的文本如果不处理干净,非常影响短文本的长度,带来模型性能下降
3)优化jieba分词的用户自定义字典。观察jieba分词后的语料,还是有很多分错的词,在垂直领域有很多特定词汇,我们需要根据任务将这些特定词汇加入分词词典,以使之分词正确
4)提升模型精度。
模型优化调参是重要的一个部分。在我的过程中影响最大的还是预训练词向量,迭代次数(稍不注意就会模型过拟合),batch size的大小(尽可能的大一些,模型收敛会更平稳)。
谨慎地细心的扩充数据源。增加数据往往是一个很好的思路,这样可以数据可以“告诉”我们更多的信息,而不是仅仅依靠假设和弱相关性来构建模型,更多的数据无疑能带来更好更精确的模型。 比较好的正负样本是1:5.
以上是近期的一个模型优化感悟,现在发现,针对短文本聊天内容分类,这个任务还是很难做的。希望对你有帮助。
时刻记着自己要成为什么样的人!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)