2020 年 8月 19 日随笔档案 - Yanqiang

2020年8月19日

摘要：任务概述敏感词检测是各类平台对用户发布内容（UGC）进行审核的必做任务。对于文本内容做敏感词检测，最简单直接的方法就是规则匹配。构建一个敏感词词表，然后与文本内容进行匹配，如发现有敏感词，则提交报告给人工审核或者直接加以屏蔽。当然也可以用机器学习的方法来做，不过需要收集及标注大量数据，有条件的阅读全文

posted @ 2020-08-19 17:53 Yanqiang 阅读(3074) 评论(0) 推荐(0) 编辑

【小技巧】python print方法重写

摘要： print方法的参数 print方法的参数：（在python3的命令行执行help(print)就可以看到） print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False) 将 value 打印到一个输出流，默认的输出流为 sys 阅读全文

posted @ 2020-08-19 16:57 Yanqiang 阅读(3518) 评论(0) 推荐(0) 编辑

【知识总结】预训练语言模型BERT的发展由来

摘要：语言模型语言模型是根据语言客观事实对语言进行抽象数学建模。可以描述为一串单词序列的概率分布：通过极大化L可以衡量一段文本是否更像是自然语言（根据文本出现的概率）：函数P的核心在于，可以根据上文预测后面单词的概率（也可以引入下文联合预测）。其中一种很常用的语言模型就是神经网络语言模型。神经网阅读全文

posted @ 2020-08-19 14:43 Yanqiang 阅读(1190) 评论(0) 推荐(0) 编辑

Morfeo

github.com/YanqiangWang

公告