Expert search 2(推荐3篇论文)
第一篇 Formal models for expert finding in enterprise corpora. In SIGIR ’06
举例:
doc1 梁斌是做机器学习的,也是学机器学习的
doc2 机器学习课程助教梁斌
doc3 梁斌参加了暑期实践
doc4 梁斌做了微博寻人
P(梁斌|d1) = 1/3 //考察文档产生专家的能力,即d产生梁斌的能力
p(梁斌|d2) = 1/4
p(梁斌|d3) = 1/3
p(梁斌|d4) = 1/2
p(机器学习|d1) =2/3 //考察文档产生query的能力
p(机器学习|d2) =1/4
p(机器学习|d3) =0
p(机器学习|d4) =0
P(机器学习|梁斌) = 1/3* 2/3 + 1/4*1/4 + 0*1/3 + 0*1/2 = 0.28
P(微博寻人|梁斌) = 1/2*1/2=0.25
第二篇 Generative Modeling of Persons and Documents for Expert Search (SIGIR 2007)
第一篇论文是e和q,由D分别产生,第二篇论文是e由D产生,在由e产生q。由于E产生Q的能力无法直接计算,论文采用了EM的方法计算,推导过程没看懂,但感觉思路是对的。
第三篇 Discriminative Models of Integrating Document Evidence and Document-Candidate Associations for Expert Search (SIGIR 2010)
提出采用Discriminative Model的方法来判别专家e和查询q的相关性。
Ma代表我导师马少平,P代表我
do: Ma IR //假定doc-0提到了Ma 1次,提到了IR 1次
d1: P IR Ma ML
d2: P ML
d3" Ma IR IR
P(r=1|Ma,IR) = P(r=1|Ma,d0)*P(r=1|IR,d0)*P(d0)+.....//d1,d2,d3依次,参见上面公式
也就是Ma和IR的关系的度量,通过Ma和D的关系,和D和IR的关系来计算。
即
计算方法,通过提取E(专家)和D(文档)的若干特征,和D(文档)和Q(查询)的若干特征,通过maximizing the conditional
log-likelihood of the sample data的方法求得特征对应的系数。例子我就不举了,大家看论文吧。