摘要: 1. 倒排求交 上一篇讲了分词。对用户的query分词之后,得到了一个个独立的词(term)。先设想一个问题,用这些词去索引里搜索时,是不是doc命中query中任何一个term,都可以被搜索出来?(query中只有一个term除外) 这里涉及好几个问题: 1. 截断:例如query是5个词ABCD 阅读全文
posted @ 2020-01-29 23:36 grindge 阅读(907) 评论(0) 推荐(0) 编辑
摘要: 分词是搜索中最基本也是非常重要的一个功能,正确的分词是好的搜索效果的必要条件。 1. 分词粒度 分词中,最主要的问题是 分词粒度 问题。例如“射雕英雄传”,下面的几种分词方式,哪一种最正确? 1. 最细粒度分词:【射雕,英雄,传】 2. 正常粒度分词:【射雕,英雄传】 3. 最粗粒度分词:【射雕英雄 阅读全文
posted @ 2019-12-02 01:01 grindge 阅读(3306) 评论(0) 推荐(0) 编辑
摘要: 1 背景 做搜索引擎有有2年时间了,算是有个基本的入门。决定写一个系列博客,记录下自己所认识的搜索引擎,也希望对新入行的朋友有些帮助。 2 概述 搜索与推荐 互联网上有海量的信息,从互联网上获取信息或娱乐,最主要的2个途径就是 搜索 和 推荐 。 搜索:是用户主动去查询与获取自己想要的信息,用户有明 阅读全文
posted @ 2019-11-24 22:46 grindge 阅读(4661) 评论(0) 推荐(0) 编辑
摘要: 1. 基本方法设$X, Y$分别是定义在输入空间和输出空间上的随机变量。$P(X,Y)$是$X$和$Y$的联合概率分布。训练数据集\begin{equation}T = \{(x_1, y_1), (x_2, y_2),...,(x_n, y_n) \}\end{equation}由$P(X,Y)$... 阅读全文
posted @ 2014-08-22 07:09 grindge 阅读(977) 评论(0) 推荐(0) 编辑
摘要: 1. 两类Logistic回归Logistic回归是一种非常高效的分类器。它不仅可以预测样本的类别,还可以计算出分类的概率信息。不妨设有$n$个训练样本$\{x_1, ..., x_n\}$,$x_i$是$d$维向量,其类别标签是$\{y_1, ..., y_n\}$。对于一个$c$类问题,$y_i... 阅读全文
posted @ 2014-06-21 06:50 grindge 阅读(11985) 评论(2) 推荐(1) 编辑
摘要: 高斯场与调和函数是一种半监督的学习方法,也是一种直推式学习(transductive learning)方法。即测试样本是已知的,所以在学习的过程中,可以充分利用测试样本,以使学习出来的模型能更好的预测测试样本。 ## 1. 高斯随机场 (Gaussian Random Fields)有$ l ... 阅读全文
posted @ 2014-04-21 06:49 grindge 阅读(4177) 评论(0) 推荐(0) 编辑
摘要: matlab:initPmtk3: https://code.google.com/p/pmtk3/ 非常强大的一个工具包,几乎包含了机器学习所有常用算法。 dimension reduction: http://www.cad.zju.edu.cn/home/dengcai/Data/data.html 蔡登的论文代码,主要是降维的如PCA,LDA等,还有谱回归、特征选择、矩阵分解、聚类等。 feature extraction: LBP feature:http://www.cse.oulu.fi/CMV/Downl... 阅读全文
posted @ 2014-04-02 11:22 grindge 阅读(3879) 评论(0) 推荐(1) 编辑
摘要: 目前了解到的MATLAB中分类器有:K近邻分类器,随机森林分类器,朴素贝叶斯,集成学习方法,鉴别分析分类器,支持向量机。现将其主要函数使用方法总结如下,更多细节需参考MATLAB帮助文件。设 训练样本:train_data %矩阵,每行一个样本,每列一个特征 训练样本标签:train_label %列向量 测试样本:test_data 测试样本标签:test_labelK近邻分类器(KNN)mdl = ClassificationKNN.fit(train_data,train_label,'NumNeighbors',1);predict_label = predict(md 阅读全文
posted @ 2014-04-02 11:17 grindge 阅读(38612) 评论(1) 推荐(1) 编辑
摘要: 1 Carnegie Mellon University卡内基美隆大学1 Massachusetts Institute of Technology麻省理工学院1 Stanford University斯坦福大学1 University of California Berkeley加州大学伯克利分校5 Cornell University康乃尔大学5 University of Illinois Urbana Champaign伊利诺伊大学厄本那―香槟分校7 University of Washington华盛顿大学8 Princeton University普林斯顿大学8 ... 阅读全文
posted @ 2012-03-25 15:13 grindge 阅读(1011) 评论(0) 推荐(0) 编辑