所以燃

2013年12月16日

Information Retrieval --- Clustering

摘要: 一、聚类算法1.扁平聚类(k均值)步骤:a.重分配(reassignment): 将每篇文档分配给离它最近的簇 b.重计算(recomputation): 重新计算每个簇的质心向量2.层次聚类2.1单连接single-link:最大相似度(往往产生长的、凌乱的簇结构)2.2全连接all-link:最小相似度3.质心法: 平均的类间相似度(对离群点非常敏感) 4.组平均Group-average: 平均的类内和类间相似度二、聚类评价1.内部指标:RSS残差平方和(不能评价实际效用)RSS = 所有簇上的文档向量到(最近的)质心向量的距离平方和的总和 2.外部指标2.1纯度2.2兰迪指数 阅读全文

posted @ 2013-12-16 23:49 Jizhiyuan 阅读(302) 评论(0) 推荐(0) 编辑

Information Retrieval --- Classification

摘要: 一、特征选择:类内代表性、类间区别性、特征子集的最优性1.DF频率法:选择高频词项2.互信息MI3.χ2 统计量二、分类算法1.线性方法1.1朴素贝叶斯(假设条件独立)1.2 Rocchio算法:质心法,效果一般不如NBC基本思想:中心向量是所有文档向量的算术平均,将每篇测试文档分到离它最近的那个中心向量。1.3 SVM支撑向量机:软间隔线性分类器2.非线性方法:KNN最近邻三、分类评价1.P值:该类中正确的结果所占该类总结果的比重P=CT/(CT+CN)2.R值:该类中正确的结果占所有类正确结果的比重R=CT(CT+~CT)3.F值:调和平均值F=1/(0.5*(1/P+1/R))4.Acc 阅读全文

posted @ 2013-12-16 22:54 Jizhiyuan 阅读(270) 评论(0) 推荐(0) 编辑

Information Retrieval --- Web Search

摘要: 一、检索应用:采样、查重二、链接分析1.PageRank一个网页的PageRank等于所有的指向它的网页的PageRank的分量之和(c为归一化参数)。一个网页如果它的入链越多,那么它也越重要(PageRank越高);一个网页如果被越重要的网页所指向,那么它也越重要(PageRank越高) 。*随机游走(Random Walk)模型:到达u的概率由两部分组成,一部分是直接随机选中的概率(1-d)或(1-d)/N,另一部分是从指向它的网页顺着链接浏览的概率,则有 2.HITS(Hyperlink-Induced Topic Search)算法一个网页被越重要的导航型网页指向越多,那么它的Auth 阅读全文

posted @ 2013-12-16 22:10 Jizhiyuan 阅读(325) 评论(0) 推荐(0) 编辑

Information Retrieval --- Retrieval Enforce:Relevance Feedback & Query Expansion

摘要: 一、相关反馈:提高召回率Recall(查询car=>car,automobile)a.用户(显式)相关反馈:用户参与交互。b.隐式相关反馈:根据用户历史行为推测返回文档相关性,进行相关反馈。c.伪相关反馈:无用户参与,系统假设返回的前k篇是相关的,进行反馈。*Rocchio算法:质心法最优查询向量:二、查询扩展:提高召回率Recall,主要使用同义词和近义词扩展1.局部方法:Rocchio相关反馈;概率模型中的反馈。2.全局方法:人工词典/知识库、自动构建资源、查询日志。 阅读全文

posted @ 2013-12-16 21:35 Jizhiyuan 阅读(352) 评论(0) 推荐(0) 编辑

Information Retrieval --- Retrieval Model

摘要: 一、布尔模型 AND查询:倒排记录表的合并(求交集) OR查询:倒排记录表的并集 查询优化:按df从小到大处理 二、向量空间模型 2.1 基本tf-idf向量空间模型 a.查询与文档的相关度采用余弦相似度计算: b.tf-idf权重计算(对数词频-逆文档频率): c.文档长度归一化:平衡短文档和长文档,降低短文档的相似度,提高长文档的相似度。 2.2 隐... 阅读全文

posted @ 2013-12-16 20:56 Jizhiyuan 阅读(826) 评论(0) 推荐(0) 编辑

Information Retrieval --- Document Processing

摘要: 一、词条化Tokenizer。中文分词:正(逆)向最大匹配,基于词典的方法。二、大小写归一化三、去停用词:the a and;的 得 地四、词形归并:am are is=>be car cars cars'=>car五、词干还原:automate automatic automation=>automat 阅读全文

posted @ 2013-12-16 17:55 Jizhiyuan 阅读(138) 评论(0) 推荐(0) 编辑

Information Retrieval --- Data Structure

摘要: 一、倒排索引1.构建2.压缩。有损压缩:去停用词、词干还原、去数字等。2.1无损压缩:词典压缩a.定常数组变为当行字符串(加词项指针)b.按块存储c.前缀编码2.2无损压缩:倒排记录表压缩(存docID间隔)1.变长字节(VB)码:后7位存储,第8位记录是否结束2.ϒ编码3.位置信息4.倒排记录表合并:求交集。优化:按df从小到大合并*跳表法:加跳表指针二、词项定位:在词典中快速找到查询。方法:哈希表;树(支持通配符查询,对词典再建索引)。2.1轮排索引:支持m*nchen查询。基本思想:将每个通配查询旋转,使*出现在末端。2.2 k-gram索引:支持通配符和拼写错误查询。建立k-gram到 阅读全文

posted @ 2013-12-16 17:48 Jizhiyuan 阅读(558) 评论(0) 推荐(0) 编辑

导航