摘要: 任务概述 敏感词检测是各类平台对用户发布内容(UGC)进行审核的必做任务。 对于文本内容做敏感词检测,最简单直接的方法就是规则匹配。构建一个敏感词词表,然后与文本内容进行匹配,如发现有敏感词,则提交报告给人工审核或者直接加以屏蔽。 当然也可以用机器学习的方法来做,不过需要收集及标注大量数据,有条件的 阅读全文
posted @ 2020-08-19 17:53 Yanqiang 阅读(2930) 评论(0) 推荐(0) 编辑
摘要: print方法的参数 print方法的参数:(在python3的命令行执行help(print)就可以看到) print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False) 将 value 打印到一个输出流,默认的输出流为 sys 阅读全文
posted @ 2020-08-19 16:57 Yanqiang 阅读(3432) 评论(0) 推荐(0) 编辑
摘要: 语言模型 语言模型是根据语言客观事实对语言进行抽象数学建模。可以描述为一串单词序列的概率分布: 通过极大化L可以衡量一段文本是否更像是自然语言(根据文本出现的概率): 函数P的核心在于,可以根据上文预测后面单词的概率(也可以引入下文联合预测)。 其中一种很常用的语言模型就是神经网络语言模型。 神经网 阅读全文
posted @ 2020-08-19 14:43 Yanqiang 阅读(1090) 评论(0) 推荐(0) 编辑