2013 年 12月 16 日随笔档案 - Jizhiyuan

Information Retrieval --- Clustering

摘要：一、聚类算法1.扁平聚类（k均值）步骤：a.重分配(reassignment): 将每篇文档分配给离它最近的簇 b.重计算(recomputation): 重新计算每个簇的质心向量2.层次聚类2.1单连接single-link：最大相似度（往往产生长的、凌乱的簇结构）2.2全连接all-link：最小相似度3.质心法: 平均的类间相似度（对离群点非常敏感） 4.组平均Group-average: 平均的类内和类间相似度二、聚类评价1.内部指标：RSS残差平方和（不能评价实际效用）RSS = 所有簇上的文档向量到(最近的)质心向量的距离平方和的总和 2.外部指标2.1纯度2.2兰迪指数阅读全文

posted @ 2013-12-16 23:49 Jizhiyuan 阅读(302) 评论(0) 推荐(0) 编辑

Information Retrieval --- Classification

摘要：一、特征选择：类内代表性、类间区别性、特征子集的最优性1.DF频率法：选择高频词项2.互信息MI3.χ2 统计量二、分类算法1.线性方法1.1朴素贝叶斯（假设条件独立）1.2 Rocchio算法：质心法，效果一般不如NBC基本思想：中心向量是所有文档向量的算术平均，将每篇测试文档分到离它最近的那个中心向量。1.3 SVM支撑向量机：软间隔线性分类器2.非线性方法：KNN最近邻三、分类评价1.P值：该类中正确的结果所占该类总结果的比重P=CT/(CT+CN)2.R值：该类中正确的结果占所有类正确结果的比重R=CT(CT+~CT)3.F值：调和平均值F=1/(0.5*(1/P+1/R))4.Acc 阅读全文

posted @ 2013-12-16 22:54 Jizhiyuan 阅读(275) 评论(0) 推荐(0) 编辑

Information Retrieval --- Web Search

摘要：一、检索应用：采样、查重二、链接分析1.PageRank一个网页的PageRank等于所有的指向它的网页的PageRank的分量之和(c为归一化参数)。一个网页如果它的入链越多，那么它也越重要(PageRank越高);一个网页如果被越重要的网页所指向，那么它也越重要(PageRank越高) 。*随机游走(Random Walk)模型：到达u的概率由两部分组成，一部分是直接随机选中的概率(1-d)或(1-d)/N，另一部分是从指向它的网页顺着链接浏览的概率，则有 2.HITS（Hyperlink-Induced Topic Search）算法一个网页被越重要的导航型网页指向越多，那么它的Auth 阅读全文

posted @ 2013-12-16 22:10 Jizhiyuan 阅读(329) 评论(0) 推荐(0) 编辑

Information Retrieval --- Retrieval Enforce:Relevance Feedback & Query Expansion

摘要：一、相关反馈：提高召回率Recall（查询car=>car,automobile）a.用户（显式）相关反馈：用户参与交互。b.隐式相关反馈：根据用户历史行为推测返回文档相关性，进行相关反馈。c.伪相关反馈：无用户参与，系统假设返回的前k篇是相关的，进行反馈。*Rocchio算法：质心法最优查询向量：二、查询扩展：提高召回率Recall，主要使用同义词和近义词扩展1.局部方法：Rocchio相关反馈；概率模型中的反馈。2.全局方法：人工词典/知识库、自动构建资源、查询日志。阅读全文

posted @ 2013-12-16 21:35 Jizhiyuan 阅读(356) 评论(0) 推荐(0) 编辑

Information Retrieval --- Retrieval Model

摘要：一、布尔模型 AND查询：倒排记录表的合并（求交集） OR查询：倒排记录表的并集查询优化：按df从小到大处理二、向量空间模型 2.1 基本tf-idf向量空间模型 a.查询与文档的相关度采用余弦相似度计算： b.tf-idf权重计算（对数词频-逆文档频率）： c.文档长度归一化：平衡短文档和长文档，降低短文档的相似度，提高长文档的相似度。 2.2 隐... 阅读全文

posted @ 2013-12-16 20:56 Jizhiyuan 阅读(838) 评论(0) 推荐(0) 编辑

Information Retrieval --- Document Processing

摘要：一、词条化Tokenizer。中文分词：正（逆）向最大匹配，基于词典的方法。二、大小写归一化三、去停用词：the a and;的得地四、词形归并：am are is=>be car cars cars'=>car五、词干还原：automate automatic automation=>automat 阅读全文

posted @ 2013-12-16 17:55 Jizhiyuan 阅读(140) 评论(0) 推荐(0) 编辑

Information Retrieval --- Data Structure

摘要：一、倒排索引1.构建2.压缩。有损压缩：去停用词、词干还原、去数字等。2.1无损压缩：词典压缩a.定常数组变为当行字符串（加词项指针）b.按块存储c.前缀编码2.2无损压缩：倒排记录表压缩（存docID间隔）1.变长字节（VB）码：后7位存储，第8位记录是否结束2.ϒ编码3.位置信息4.倒排记录表合并：求交集。优化：按df从小到大合并*跳表法：加跳表指针二、词项定位：在词典中快速找到查询。方法：哈希表；树（支持通配符查询，对词典再建索引）。2.1轮排索引：支持m*nchen查询。基本思想：将每个通配查询旋转，使*出现在末端。2.2 k-gram索引：支持通配符和拼写错误查询。建立k-gram到阅读全文

posted @ 2013-12-16 17:48 Jizhiyuan 阅读(565) 评论(0) 推荐(0) 编辑

所以燃