所以燃

2013年12月16日

Information Retrieval --- Data Structure

摘要: 一、倒排索引1.构建2.压缩。有损压缩:去停用词、词干还原、去数字等。2.1无损压缩:词典压缩a.定常数组变为当行字符串(加词项指针)b.按块存储c.前缀编码2.2无损压缩:倒排记录表压缩(存docID间隔)1.变长字节(VB)码:后7位存储,第8位记录是否结束2.ϒ编码3.位置信息4.倒排记录表合并:求交集。优化:按df从小到大合并*跳表法:加跳表指针二、词项定位:在词典中快速找到查询。方法:哈希表;树(支持通配符查询,对词典再建索引)。2.1轮排索引:支持m*nchen查询。基本思想:将每个通配查询旋转,使*出现在末端。2.2 k-gram索引:支持通配符和拼写错误查询。建立k-gram到 阅读全文

posted @ 2013-12-16 17:48 Jizhiyuan 阅读(565) 评论(0) 推荐(0) 编辑

2013年12月10日

Information Retrieval --- Outline

摘要: graph copyed from Wangbin: 阅读全文

posted @ 2013-12-10 22:42 Jizhiyuan 阅读(129) 评论(0) 推荐(0) 编辑

Data Mining --- Clustering

摘要: 一、二元变量距离二、划分法:K-means聚类(需要确定K)三、层次法:分层聚类(需终止条件)*BIRCH:集成分层聚类(CF-tree)*CURE:使用代表聚类四、基于密度的聚类:DBSCAN1.直接密度可达:2.密度可达:3.密度连通:五、基于网格的聚类:STING(统计信息网格)六、Outlier检测1.统计方法:多数情况下不知道数据分布2.index-based algorithm3.nested-loop algorithm4.cell-based algorithm 阅读全文

posted @ 2013-12-10 00:12 Jizhiyuan 阅读(412) 评论(0) 推荐(0) 编辑

2013年12月9日

Data Mining --- Association Rule Mining

摘要: 一、基本概念支持度:support(a→b)=P(ab)置信度:confidence(a→b)=P(b|a)=P(ab)/P(a)相关性:Lift(a→b)=P(ab)/P(a)P(b)二、Aprior算法*Partition:扫描两遍数据库将数据分块,第一遍每块选出频繁集,第二遍找出全局频繁集。*DHP:减少candidate数量*DIC:减少扫描次数三、FP-tree四、挖掘多层关联规则1.uniform support:层间支持度相同,若祖先不频繁,则其后代也不频繁,可剪枝。2.reduced support:层间支持度递减,若祖先不满足本层最小支持度,其后代可能满足,若剪枝会丢失频繁项 阅读全文

posted @ 2013-12-09 23:01 Jizhiyuan 阅读(577) 评论(0) 推荐(0) 编辑

Data Minig --- Classification(supervised learning)

摘要: 一、决策树:tree construction & tree pruninga.ID3算法Gain(A)=Entropy(S) - Σ(Sv/S)*Entropy(Sv)b.C4.5算法GainRatio(A)=Gain(A)/SplitInfo(A)SplitInfo(A)=-Σ(Sv/S)log(Sv/S)c.Gini Index算法定义Gini系数如下:若将数据分成两个子集,则分割后的Gini系数为:提供最小的Ginisplit就被选为分割的标准。二、朴素贝叶斯分类p(c|x1…xn)=p(c)*p(x1|c)…*p(xn|c)/Σp(c)*p(x1|c)…*p(xn|c)三、B 阅读全文

posted @ 2013-12-09 22:19 Jizhiyuan 阅读(387) 评论(0) 推荐(0) 编辑

Data Mining --- Preprocessing

摘要: 1.数据描述:均值mean(x)=1/n*Σxi,加权均值wieghted-mean(x)=Σwixi/Σwi;中值median;众数mode。经验公式:mean-mode=3*(mean-median)。1/4和3/4分位数;总体方差σ和样本方差s。2.数据清理:对缺失数据忽略/填充,对噪声数据进行平滑(装箱Binning,回归Regression,聚类Clustering)a.等宽装箱(distance),等深装箱(frequency)b.回归c.聚类3、数据转换(去量纲)a.最小值-最大值标准化:b.Z-score标准化:c.小数点标准化:4.数据集成(相关分析、卡方检验)a.相关性系数 阅读全文

posted @ 2013-12-09 18:54 Jizhiyuan 阅读(534) 评论(0) 推荐(0) 编辑

Data Mining --- DataWareHouse

摘要: 一、数据仓库定义:面向主题、集成的、时变的、非易失的数据集合,并支持管理决策。数据仓库(联机分析处理OLAP)VS 数据库系统(联机事务处理OLTP):OLTP面向顾客用于查询处理,OLAP面向分析员用于数据分析;OLTP管理当前数据,OLAP管理大量历史数据;OLTP采用ER模型,OLAP采用星形或雪花模型。OLAP操作:上卷、下钻、切片、转轴。三层数据仓库结构:底层数据仓库服务器、中间层OLAP服务器、顶层客户。索引OLAP数据:位图索引。相比散列与树索引,位图索引把比较连接聚集等操作变成位运算,减少运行时间;字符串用位表示降低了空间和I/O开销。 阅读全文

posted @ 2013-12-09 15:43 Jizhiyuan 阅读(273) 评论(0) 推荐(0) 编辑

2013年12月3日

Image Processing --- Gaussian Pyramid & Laplacian Pyramid

摘要: 一、高斯金字塔目标:把图像分解成多个尺寸来抽取各特征输入:size为(2N+1)*(2N+1)的原始图像I输出:N个图像g0,…,g1。gi的大小为:(2N-i+1)*(2N-i+1)高斯金字塔分解步骤:a.高斯(模板/权矩阵/卷积核)平滑——对整个图像滑动加权平均(卷积:f(x)⊙h(x)=∫f(x)h(t-x)dt) 模板顺时针旋转180度,移动至待处理像素上方,滑动加权相加,直至处理完所有像素。(边缘等值扩充)b.下采样:每隔一个点采一个样*应用:图像特征分解g(i+1)=(g(i).smoothing).downsampling二、拉普拉斯金字塔上4图为高斯金字塔,下4图为拉普拉斯金字 阅读全文

posted @ 2013-12-03 00:08 Jizhiyuan 阅读(1740) 评论(0) 推荐(0) 编辑

2013年11月30日

Deep Learning --- deep belief nets & restrict boltzmann machine

摘要: 一、深度学习定义:深度学习是为了能够得到有助于理解图片、声音、文本等的数据所表述的意义而进行的多层次的表示和抽取的学习。用简单的机器学习,例如用含2个或3个隐含层的神经网络,是不可能达到与人类类似的判别决策的。这就需要多层的学习器,逐层学习并把学习到的知识传递给下一层,以便下层能够得到更高级别的表述形式,期望可以得到与人类类似的结论。学习的深度学习器的深度,决定于学习器的构造。根据学习的深度,机器学习可以分为浅度学习和深度学习。假设学习器为一个有向流通图,那么深度就是从开始结点到结束结点的最长路径。例如,一个支撑向量机的深度是2,是输入经过一个核变换到核空间,再加上一个线性组合。再如多层前传神 阅读全文

posted @ 2013-11-30 20:09 Jizhiyuan 阅读(1066) 评论(0) 推荐(0) 编辑

2013年11月19日

Machine Learning --- Gaussian Inference

摘要: 一、联合高斯分布中的推断把数据拆成两半(x1,x2)~N(μ,Σ)且则边缘分布、条件分布还是高斯分布:[应用]:数据填补:二、线性高斯系统令z=(x,y),则:[应用1]:从未知x的有噪声测量y中估计x的值假设测量的精度固定为:,似然为:用后验方差表示则:[应用2]:数据融合(每个测量精度都不一样,如用不同的仪器采集)三、多元高斯参数的贝叶斯估计(1) μ的后验估计(高斯似然+共轭高斯先验)数据似然:共轭先验:后验:标量后验:(2) Σd的后验估计(IW似然+共轭IW先验/IG似然+共轭IG先验)当D=1时退化为反Gamma分布(卡方分布):似然函数:共轭先验:后验:标量IG似然:标量共轭IG 阅读全文

posted @ 2013-11-19 12:43 Jizhiyuan 阅读(774) 评论(0) 推荐(0) 编辑

导航