huangfox

冰冻三尺,非一日之寒!

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

转载:

http://club.alibabatech.org/article_detail.htm?articleId=61

 

【导读】本文从商品类目预测的难点分析出发,衍生出一淘商品类目预测的架构以及实现,同时还对商品类目预测的进阶提出了畅想。适合想对商品类目预测有一些了解的同学阅读。

什么是一淘商品类目预测
一淘商品类目预测是指计算机利用算法将外网商品分到淘宝后台类目结构中相应类目的过程。

商品类目预测业务应用点一淘网站中,那些外网(非淘宝的电商网站,如苏宁、当当等)的商品都是通过spider/feed两种方式获得,在得到这些商品基本信息(标题、面包屑、属性描述)后,还需要给每个商品挂到淘宝后台类目上,作为搜索中商品类目导航、各种维度数据统计、产品库建设的依据。

一淘商品类目预测难点
一淘商品类目预测的难点主要体现在如下几个方面:
类目数量多
淘宝网的商品品类是现有电商公司最全的,基本覆盖了所有品类的商品,大到大家都知道的彩电,冰箱,小到小众所需的蚊子拍,应有尽有,类目数量多,极大增大了分类空间,提高了分类问题的复杂度。不同的类目的类目层次不同,有些类目只有一级类目,比如手机,有些类目有多层类目结构,如“书籍/杂志/报纸->计算机/网络->程序设计->C语言”,层次越深,需要分类的计算量越大。

分类空间不同
不同类目的叶子类目个数不同,有些类目的叶子类目数目较少,如“箱包皮具/女包/男包”只有3个叶子类目;有些类目的叶子类目数目很多,如“运动/瑜伽/健身/球迷用品”有800+叶子类目,叶子类目越多,这些叶子类目之间区分度越小,分类越难。

不同类目的分类难度不同
如“箱包皮具/热销女包/男包”类目,只有“包袋”、“钱包卡套”、“旅行箱”,这三个类目非常好分,但是像“电视机”这样的类目,它有5个叶子类目:“LCD液晶电视”、“等离子电视”、“LED电视”、“3D电视”、“其他电视机”,这几个类目的区别度不大,尤其对于一些网站对于这些商品并没有显式描述,给分类带来了很大的难度。

商品标题内容多样
有些商品标题非常容易分类,如“2012时尚雪纺连衣裙”,这个标题包含唯一的一个产品词“连衣裙”;而有些包含多个产品词或者类目词,如“飞利浦电视47PFL3609/93儿童Lock+Parental控制/睡眠定时器”,还有更复杂的标题,比如标题包含赠送等混淆类目词或者产品词,像“美国正品thechildrenplace女童半身休闲短裙4T内含短裤”,既有“短裙”,也有“短裤”,而这两个产品属于不同的类目,算法就需要对这种情况识别出来,这条商品到底卖的是什么东西。需要采用不同的算法策略。淘宝基本包含了现实世界中所有品类商品,这些商品从语种上看,既有中文,也有英文和繁体的,有标题中包含明显类目特征的,如类目词、产品词,也有通过标题和商品描述基本不能判断其类目的商品,我们对于不同语种、不同类型的商品采用不同的分类算法。

一淘商品类目实现
主要分类算法和策略:
表征向量法、最大熵、SVM二分类、直接关键词匹配等。
但是首先需要处理的是语种识别,识别出商品的语种,确定海外购商品(英文)、繁体(繁体转换成简体)、简体商品,对于不同的语种,采用不同的处理策略。

SVM二分类主要分商品是不是书籍,书籍这类商品比较特殊,从该类商品标题上看,书籍内容包罗万象,标题也就包罗万象,如果仅仅从标题来判断,连人就难以将它分正确,比如“毛衣编织方法大全”,“洗衣机维修手册”,这些都是书名,但是仅仅凭借标题,很可能将它分到“毛衣”和“洗衣机”类目。好在书籍一本都有“书籍批号ISBN”、“出版社”、“出版时间”等比较明显的信息,利用SVM二分首先将判断一个商品是不是书籍。

表征向量分类法:该方法刻画了一个特征对某个类目的表征能力。假定A是一个类目,而B是该类目下一级类目,特征F表征B类目的能力定义为:F在B中的密度以及B补中(A-B)的密度的差异度。
而特征F在B中密度PB(f)=B中包含特征F的样本数/B总的样本数,
特征F在A-B中密度PA-B(f)=(A-B)中包含特征F的样本数/B总的样本数特征F表征B的能力WB(f)=1-PA-B(f)/PB(f)取值范围小于0的部分取0,越接近1,f代表B的能力越强利用表征向量法对商品类目的预测是自顶向下逐层进行,先预测一级类别,然后逐级往下直到叶子类目,S(i)=Sum(Wi(f)),f是从该商品中提取的特征,可以使词的unigran和Bigram特征,特征可以来自商品标题,也可以来自商品面包屑和一些属性区文本(如描述等)。

最大熵方法:表征向量法类似于只能于最大似然估计方法,它的训练和分类过程简单快速,可以从所有淘宝内网的商品中学习这种表征知识。但是这是一个经验化直观的分类方法,在计算特征对于类目的表征能力,缺少必要的理论基础,而且,对于多种不同来源的知识融合问题,也难以解决。为此进一步提高分类效果的角度,引入最大熵方法来分类。最大熵方法不仅有完备的理论基础,而且可以融合多种不同来源的知识,在面向业务性问题(业务性问题往往积累了各方面的知识)是一个很好的应用场景。在最大熵模型中,以下特征有助于分类:

普通词汇:词往往描述了商品的类目、商品的属性等
类目词/产品词:这类词基本可以直接判断商品所在的类目
性别年龄词:对于与性别相关的类目(男装、女装、男鞋、女鞋),与年龄相关的类目(童装、童鞋、孕妇装)等非常有帮助
品牌词、型号词、系列词、货号词:对于3C类目和一些知名品牌的商品分类有帮助
停用词:去掉一些无用的标点、服务词、促销词等
这些特征有些从商品的标题、面包屑中直接提取,有些需要从商品的属性或者描述中提取。

以上特征直接从商品中直接获取,还有一些知识可以从其他来源获取,比如商品的聚类知识:商品分类是一个有指导的机器学习和预测过程,商品聚类是一个无指导的过程,通过聚类,可以将类目相似的商品聚类在一起,每个商品所在的聚类可以作为一种外部知识源,该知识源倾向将相同聚类的商品归结为同一个类目。

另外Query的类目知识也可以作为一种外部知识源,在搜索系统中,query类目知识往往可以通过用户对于query召回商品的点击数据统计获得,通过计算商品是否包含某些query或者与这些query的相似度来辅助商品类目预测,尤其对那些标题比较短的商品的类目预测有比较大的帮助。

最大熵与表征向量法比较而言,优点不言自明,分类效果有一个非常大的提升,相对于表征向量法,一级类目往往提升在10个百分点以上。但是模型训练所消耗的时间往往很长,训练一个50类的分类器,一台计算能力非常强的机器(24G)往往需要计算24小时,另外,最大的问题是不能充分利用淘宝内网数据的威力,当前主要利用全局抽样的策略来解决这个问题,抽样得到的训练样本的分布合理性直接决定了分类的效果。

直接关键词匹配:对于某些类目的商品,淘宝上历史已有的商品很少,比如面向海外卖家的英文商品和医药类商品,前者是去年才开始抓取的商品数据,后者是国家2012年才准许电商卖药,商品比较少,决定了不能简单利用模型来进行统计学习,为此,我们利用关键词直接命中的方法来解决这些小众类目的商品叶子类目分类问题。

类目预测进阶

1,先验知识进模型,将品牌、货号、型号、系列对于类目的先验知识融合到预测模型中,改善由于训练抽样分布不合理带来的问题;
2,基于错误驱动的抽样技术解决训练抽样分布不合理问题;
3,Query类目预测知识辅助商品类目预测。一些标题短的商品,利用4,基于模型的预测,效果比较差,利用query类目预测知识反而效果会比较好,通过计算title也query的相似度,用相似query的类目来拟合商品的类。
5,利用商品聚类特征改善类目预测

名词解释:

面包屑:外网商品对商品类目层次的描述文字,比如“服装鞋帽->男装->polo衫”
叶子类目:淘宝后台类目结构中最后一层类目,比如“书籍/杂志/报纸->计算机/网络->程序设计->C语言”,“C语言”是“书籍/杂志/报纸”类目下的叶子类目。

posted on 2016-05-27 10:37  huangfox  阅读(1931)  评论(0编辑  收藏  举报