微信、QQ群短文本聊天语料总结

　　在文本分类任务中，语料的特性千差万别，我们需要找到适合模型并抓住数据的特性，最终才能得到较好的model。最近在文本类别标注任务，就是给文本打标签确定该文本的类别。这是一个很费人工的过程，需要认真仔细，因为我们都知道有多少人工就有多少智能。

　　微信、QQ短文本：

　　（1）如何分段

　　聊天文本的边界是无法确定的，那我们如何截取一个群聊的文本作为我们的一个训练样本呢。目前初步的做法是：首先约定字数，达到多少文字我们就认定可以是一个样本段落；同时加入聊天时间作为辅助标准，某一时间间隔的数据可以作为一个样本。这只是两个方向，具体实施过程还要根据实际任务来确定。明确一点，标注的一个文本段落不可太长，太长会造成主题模糊，标注时无法正确明确标签类别，还有就是溯源的时候回带来一定影响。

　　（2）文本特性

　　对话形式，不同的人随时会有发言，通俗的讲就是你一句我一句；包含“@”符号，后面接微信QQ用户名，可以说这是无用信息，但是在群聊天中大量存在；表情符号，群成员会发大量的表情；文本中充斥了大量广告、祝福，从其它处赋值粘贴的内容。

持续更新

posted @ 2019-01-16 10:28 今夜无风阅读(1932) 评论(0) 收藏举报

刷新页面返回顶部

微信、QQ群短文本聊天语料总结

微信、QQ短文本：

（1）如何分段

（2）文本特性

公告

　　微信、QQ短文本：

　　（1）如何分段

　　（2）文本特性