【转载】内容审核系统的搭建设计思路

对于信息产品和内容产品,内容评审是必不可少的环节之一。审核既是产品风险的控制手段,又是维护网络生态环境的重要环节。本文阐述了构建内容审核系统的设计思路和程序,希望能对大家有所帮助。

如果运营同学通过简单的流程梳理,不难发现所涉及的对象包括发送用户、接收用户和内容审核(管理员等)。在设计时有两个方向:一方面简单地考虑对象的处理机制。 在另一方面,考虑关联对象被连接以说明产品设计。

用户的信息可以分类为年龄,性别,地理位置,设备,IP地址,使用时间,交易信息,用户发布等。以上信息均属于用户的数据,用户数据是用户分析的基础,有些数据能在一定程度上反映用户信用。

而用户评分系统是对用户的基础数据进行分析和数字化,可以通过权重累加,也可以通过总分相加。比如:发布过一个企业违规内容的用户,则分值降低等。但是仅仅通过分值进行系统分析可能不够,因为某些分值高的用户还是有可能发布不好的内容。

因此在设计搭建时,需要再学习其他管理策略研究处理,比如高中低风险以及用户提供制度、黑白名单制度等。例如,在检测到用户发布非法内容后,则将与评分值解耦,定义为高风险用户,该用户将被多次放入手动审计机制中。

 

说完了上述内容,简单讲一下敏感词的策略。以下将简单概述一下内容审核中不同的敏感词策略,常见有:

1. 关键词:

禁止关键词:一经识别即拦截。疑似关键词:可以支持更多策略,可以设置阈值。

处理方式有涉嫌送审、未送审拦截、黑名单拦截。设置阈值是指设置一定的数量,如果检测到超过一定次数,就会进行相应的处理。

2. 黑白名单:顾名思义,黑名单数据一律通过拦截、白名单企业一律不检测系统拦截。

3. 用户频率: 主要根据用户发送的方式和次数计算用户频率,形成用户频率统计数据。根据用户的频率可以处理: 发送到复查、直接截取、截取加黑。

4. 白指纹:根据指纹的唯一性质,为内容文件通过消息摘要算法生成MD5,配置为黑名单,一旦发现相同的MD5被拦截。白名单也是同理策略。

对于信息产品的各个企业来说,有时审计的内容不能100%准确,所以用户可以通过以上各方式来处理。国内优质人工智能数据服务平台谛听安全,凭借数十年的产品内容经验,积累了更全面的审计维度,从平台的内容安全与运营角度出发,为不同行业的用户提高平台环境与运营活跃度,并且具有行业领先的非法过滤能力,从而为用户提供更可靠、更高质量的服务质量与速度。

posted on 2022-07-18 10:11  是知也  阅读(389)  评论(0编辑  收藏  举报

导航