Jizhiyuan - 博客园

Information Retrieval --- Data Structure

摘要：一、倒排索引1.构建2.压缩。有损压缩：去停用词、词干还原、去数字等。2.1无损压缩：词典压缩a.定常数组变为当行字符串（加词项指针）b.按块存储c.前缀编码2.2无损压缩：倒排记录表压缩（存docID间隔）1.变长字节（VB）码：后7位存储，第8位记录是否结束2.ϒ编码3.位置信息4.倒排记录表合并：求交集。优化：按df从小到大合并*跳表法：加跳表指针二、词项定位：在词典中快速找到查询。方法：哈希表；树（支持通配符查询，对词典再建索引）。2.1轮排索引：支持m*nchen查询。基本思想：将每个通配查询旋转，使*出现在末端。2.2 k-gram索引：支持通配符和拼写错误查询。建立k-gram到阅读全文

posted @ 2013-12-16 17:48 Jizhiyuan 阅读(558) 评论(0) 推荐(0) 编辑

Information Retrieval --- Outline

摘要： graph copyed from Wangbin: 阅读全文

posted @ 2013-12-10 22:42 Jizhiyuan 阅读(129) 评论(0) 推荐(0) 编辑

Data Mining --- Clustering

摘要：一、二元变量距离二、划分法：K-means聚类（需要确定K）三、层次法：分层聚类（需终止条件）*BIRCH：集成分层聚类（CF-tree）*CURE：使用代表聚类四、基于密度的聚类：DBSCAN1.直接密度可达：2.密度可达：3.密度连通：五、基于网格的聚类：STING（统计信息网格）六、Outlier检测1.统计方法：多数情况下不知道数据分布2.index-based algorithm3.nested-loop algorithm4.cell-based algorithm 阅读全文

posted @ 2013-12-10 00:12 Jizhiyuan 阅读(409) 评论(0) 推荐(0) 编辑

Data Mining --- Association Rule Mining

摘要：一、基本概念支持度：support(a→b)=P(ab)置信度：confidence(a→b)=P(b|a)=P(ab)/P(a)相关性：Lift(a→b)=P(ab)/P(a)P(b)二、Aprior算法*Partition：扫描两遍数据库将数据分块，第一遍每块选出频繁集，第二遍找出全局频繁集。*DHP：减少candidate数量*DIC：减少扫描次数三、FP-tree四、挖掘多层关联规则1.uniform support：层间支持度相同，若祖先不频繁，则其后代也不频繁，可剪枝。2.reduced support：层间支持度递减，若祖先不满足本层最小支持度，其后代可能满足，若剪枝会丢失频繁项阅读全文

posted @ 2013-12-09 23:01 Jizhiyuan 阅读(569) 评论(0) 推荐(0) 编辑

Data Minig --- Classification(supervised learning)

摘要：一、决策树：tree construction & tree pruninga.ID3算法Gain(A)=Entropy(S) - Σ(Sv/S)*Entropy(Sv)b.C4.5算法GainRatio(A)=Gain(A)/SplitInfo(A)SplitInfo(A)=-Σ(Sv/S)log(Sv/S)c.Gini Index算法定义Gini系数如下：若将数据分成两个子集，则分割后的Gini系数为：提供最小的Ginisplit就被选为分割的标准。二、朴素贝叶斯分类p(c|x1…xn)=p(c)*p(x1|c)…*p(xn|c)/Σp(c)*p(x1|c)…*p(xn|c)三、B 阅读全文

posted @ 2013-12-09 22:19 Jizhiyuan 阅读(386) 评论(0) 推荐(0) 编辑

Data Mining --- Preprocessing

摘要： 1.数据描述：均值mean(x)=1/n*Σxi，加权均值wieghted-mean(x)=Σwixi/Σwi；中值median；众数mode。经验公式：mean-mode=3*(mean-median)。1/4和3/4分位数；总体方差σ和样本方差s。2.数据清理：对缺失数据忽略/填充，对噪声数据进行平滑（装箱Binning，回归Regression，聚类Clustering）a.等宽装箱（distance）,等深装箱（frequency）b.回归c.聚类3、数据转换（去量纲）a.最小值-最大值标准化：b.Z-score标准化：c.小数点标准化：4.数据集成（相关分析、卡方检验）a.相关性系数阅读全文

posted @ 2013-12-09 18:54 Jizhiyuan 阅读(524) 评论(0) 推荐(0) 编辑

Data Mining --- DataWareHouse

摘要：一、数据仓库定义：面向主题、集成的、时变的、非易失的数据集合，并支持管理决策。数据仓库（联机分析处理OLAP）VS 数据库系统（联机事务处理OLTP）：OLTP面向顾客用于查询处理，OLAP面向分析员用于数据分析；OLTP管理当前数据，OLAP管理大量历史数据；OLTP采用ER模型，OLAP采用星形或雪花模型。OLAP操作：上卷、下钻、切片、转轴。三层数据仓库结构：底层数据仓库服务器、中间层OLAP服务器、顶层客户。索引OLAP数据：位图索引。相比散列与树索引，位图索引把比较连接聚集等操作变成位运算，减少运行时间；字符串用位表示降低了空间和I/O开销。阅读全文

posted @ 2013-12-09 15:43 Jizhiyuan 阅读(268) 评论(0) 推荐(0) 编辑

Image Processing --- Gaussian Pyramid & Laplacian Pyramid

摘要：一、高斯金字塔目标：把图像分解成多个尺寸来抽取各特征输入：size为(2N+1)*(2N+1)的原始图像I输出：N个图像g0,…,g1。gi的大小为：(2N-i+1)*(2N-i+1)高斯金字塔分解步骤：a.高斯（模板/权矩阵/卷积核）平滑——对整个图像滑动加权平均（卷积：f(x)⊙h(x)=∫f(x)h(t-x)dt）模板顺时针旋转180度，移动至待处理像素上方，滑动加权相加，直至处理完所有像素。（边缘等值扩充）b.下采样：每隔一个点采一个样*应用：图像特征分解g(i+1)=(g(i).smoothing).downsampling二、拉普拉斯金字塔上4图为高斯金字塔，下4图为拉普拉斯金字阅读全文

posted @ 2013-12-03 00:08 Jizhiyuan 阅读(1707) 评论(0) 推荐(0) 编辑

Deep Learning --- deep belief nets & restrict boltzmann machine

摘要：一、深度学习定义：深度学习是为了能够得到有助于理解图片、声音、文本等的数据所表述的意义而进行的多层次的表示和抽取的学习。用简单的机器学习，例如用含２个或３个隐含层的神经网络，是不可能达到与人类类似的判别决策的。这就需要多层的学习器，逐层学习并把学习到的知识传递给下一层，以便下层能够得到更高级别的表述形式，期望可以得到与人类类似的结论。学习的深度学习器的深度，决定于学习器的构造。根据学习的深度，机器学习可以分为浅度学习和深度学习。假设学习器为一个有向流通图，那么深度就是从开始结点到结束结点的最长路径。例如，一个支撑向量机的深度是２，是输入经过一个核变换到核空间，再加上一个线性组合。再如多层前传神阅读全文

posted @ 2013-11-30 20:09 Jizhiyuan 阅读(1063) 评论(0) 推荐(0) 编辑

Machine Learning --- Gaussian Inference

摘要：一、联合高斯分布中的推断把数据拆成两半(x1,x2)~N(μ,Σ)且则边缘分布、条件分布还是高斯分布：[应用]：数据填补：二、线性高斯系统令z=(x,y)，则：[应用1]：从未知x的有噪声测量y中估计x的值假设测量的精度固定为：，似然为：用后验方差表示则：[应用2]：数据融合（每个测量精度都不一样，如用不同的仪器采集）三、多元高斯参数的贝叶斯估计(1) μ的后验估计（高斯似然+共轭高斯先验）数据似然：共轭先验：后验：标量后验：(2) Σd的后验估计（IW似然+共轭IW先验/IG似然+共轭IG先验）当D=1时退化为反Gamma分布（卡方分布）：似然函数：共轭先验：后验：标量IG似然：标量共轭IG 阅读全文

posted @ 2013-11-19 12:43 Jizhiyuan 阅读(763) 评论(0) 推荐(0) 编辑

所以燃