论文杂记
相关系数
相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。分为:简单相关系数、复相关系数、典型相关系数; 这里介绍一下简单相关系数,很多论文有用到这个知识点,定义式为:
其中,Cov(X, Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。求得的值在区间[-1, 1]中,其绝对值越大表示越相关,正值表示正相关,负值表示负相关。
Mean reciprocal rank(MRR)
这是一个对搜索算法进行评价的指标,因为搜索算法只返回top1的话,精确率会很低,MRR是返回多个值,比如MRR@10是返回算法预测可能性最高的10个。具体分数计算如下:
如果正确结果是第一个那么得1分,第二个得1/2分,...,第n个得1/n分。
同构图与异构图
同构图,node的种类只有一种,一个node和另一个node的连接关系只有一种
异构图,有很多种node。node之间也有很多种连接关系。
Jaccard相似度
定义:两个句子词汇的交集size除以两个句子词汇的并集size
cosine相似度
cosine相似度是通过计算两个向量之间的夹角,来评价两个向量的相似度。
Isomap(等距特征映射)
是一种降维方法,具体看链接
Meta-path
连接两个节点的综合关系能够提取丰富的语义。
user--buy--item--buy--user(U-B-I-B-U)意味着共同购买关系;
user--social--user(U-S-U)意味着社会关系;
user--buy--item(U-B-I)意义购买关系;
user--view--item--view--user(U-V-I-V-U)意味着共同观看关系。
简单地说,meta-path是连接两个实体的一条特定的路径,比如“演员->电影->导演->电影->演员”这条meta-path可以连接两个演员,因此可以视为一种挖掘演员之间的潜在关系的方式。这类方法的优点是充分且直观地利用了知识图谱的网络结构,缺点是需要手动设计meta-path或meta-graph,这在实践中难以到达最优;同时,该类方法无法在实体不属于同一个领域的场景(例如新闻推荐)中应用,因为我们无法为这样的场景预定义meta-path或meta-graph。
GCN的over-smoothing(过渡平滑)问题
在图神经网络的训练过程中,随着网络层数的增加和迭代次数的增加,每个节点的隐层表征会趋向于收敛到同一个值(即空间上的同一个位置)
不是每个节点的表征都会趋向于收敛到同一个值,更准确的说,是同一个连通分量内的节点的表征会趋向于收敛到同一个值。这对表征图中不同簇的特征、表征图的特征都有好处。但是,有很多任务的图是连通图,只有一个连通分量,或较少的连通分量,这就导致了节点的表征会趋向于收敛到一个值或几个值的问题。
所以over-smooth的现象就是多次卷积后,同一连通分量内所有节点的特征都趋于一致了。
Laplacian matrix(拉普拉斯矩阵)
百度百科
基于内容的推荐和基于协同过滤推荐
1、基于内容的推荐:根据物品或内容的元数据,发现物品或内容的相关性,然后基于用户以前的喜好记录推荐给用户相似的 物品。
如:对于用户A,他喜欢看电影A,那么系统就可以给他推荐类似的电影C。
2、基于协同过滤推荐
(1)、基于用户的协同过滤推荐(User-based Collaborative Filtering Recommendation)
基于用户的协同过滤推荐算法先使用统计技术寻找与目标用户有相同喜好的邻居,然后根据目标用户的邻居的喜好产生向目标用户的推荐。基本原理就是利用用户访问行为的相似性来互相推荐用户可能感兴趣的资源。
(2)、基于项目的协同过滤推荐(Item-based Collaborative Filtering Recommendation)
根据所有用户对物品或者信息的评价,发现物品和物品之间的相似度,然后根据用户的历史偏好信息将类似的物品推荐给该用户。
(3)、基于模型的协同过滤推荐(Model-based Collaborative Filtering Recommendation)
基模型的协同过滤推荐就是基于样本的用户喜好信息,训练一个推荐模型,然后根据实时的用户喜好的信息进行预测推荐。
综上所述:
1、基于内容的推荐,只考虑了对象的本身性质,将对象按标签形成集合,如果你消费集合中的一个则向你推荐集合中的其他对象;
2、基于协同过滤的推荐算法,充分利用集体智慧,即在大量的人群的行为和数据中收集答案,以帮助我们对整个人群得到统计意义上的结论,推荐的个性化程度高。
t-test
t-test是用来比较两样本平均值之间是否具有显著性差异;
t-test的类型:
- one-sample t-test,用来比较单个样本平均值和一个给定的平均值(理论值)
- independent samples t-test(unpaired two sample t-test),用来比较两组独立样本平均值
- paired t-test,用来比较两个相关样本组之间的平均值
具体看链接