标签体系中的一些基本概念
标签体系中的一些基本概念
基础概念
实体标签
- 必须是名词,且必须是唯一指代
概念标签
- 概念标签通常表示的是“一类”或“某种相似”的内容
主题词
- 用来填补不同级别标签之间的空白,保持了推荐的多样性又不至于过分精准而导致极度收敛
标签体系构建的原则
一、放弃⼤而全的框架,以业务场景倒推标签需求
二、标签生成自助化,解决效率和沟通成本
- 标签生成的自助化能够让沟通成本降最低
- 标签生成的自助化,可重复修改的规则,降低无效标签的堆积
- 释放数据团队人力,释放业务团队的想象力
三、有效的标签管理机制
标签体系的实施架构
数据加工层
- 数据加工层收集,清洗和提取来处理数据,收集了所有数据之后,需要经过清洗:去重,去无效数据,去异常数据等等。然后再是提取特征数据
数据业务层
- 用来维护整个标签体系,集中在一个地方来进行管理
- 主要包括以下核心内容
- 定义业务方需要的标签。
- 创建标签实例。
- 执行业务标签实例,提供相应数据。
数据应用层
标签体系的设计
1.业务梳理
2.标签分类
- 梳理标签分类时,尽可能按照MECE原则,相互独立,完全穷尽。每一个子集的组合都能覆盖到父集所有数据。标签深度控制在四级比较合适,方便管理,到了第四级就是具体的标签实例
3.标签的模型
- 从数据的失效性来看
- 静态属性标签。长期甚至永远都不会发生改变。比如性别,出生日期,这些数据都是既定的事实,几乎不会改变
- 动态属性标签。存在有效期,需要定期地更新,保证标签的有效性。比如用户的购买力,用户的活跃情况。
- 从数据的提取维度来看
- 事实标签。既定事实,从原始数据中提取。比如通过用户设置获取性别,通过实名认证获取生日,星座等信息
- 模型标签。没有对应数据,需要定义规则,建立模型来计算得出标签实例。比如支付偏好度。
- 预测标签。参考已有事实数据,来预测用户的行为或偏好。比如用户a的历史购物行为与群体A相似,使用协同过滤算法,预测用户a也会喜欢某件物品。
标签最终呈现的形态要满足两个需求:
- 1.标签的最小颗粒度要触达到具体业务事实数据,同时支持对应标签实例的规则自定义
- 2.不同的标签可以相互自由组合为新的标签,同时支持标签间的关系,权重自定义。
记录学习的点点滴滴