COS - 博客园

2011年11月16日

最大似然估计(Maximum likelihood estimation) 【转】

摘要：最大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。简单而言，假设我们要统计全国人口的身高，首先假设这个身高服从服从正态分布，但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高，但是可以通过采样，获取部分人的身高，然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。最大似然估计中采样需满足一个很重要的假设，就是所有的采样都是独立同分布的。下面我们具体描述一下最大似然估计：首先，假设为独立同分布的采样，θ为模型参数,f为我们所使用的模型，遵循我们上述的独立同分布假设。参数为θ的模型f产生上述采样可表示为回到上面的“模型已定，参数未知” 阅读全文

posted @ 2011-11-16 15:38 COS 阅读(409) 评论(0) 推荐(1)

判别式模型与生成式模型简单理解

摘要：判别式模型该模型主要对p(y|x)建模，通过x来预测y。在建模的过程中不需要关注联合概率分布。只关心如何优化p(y|x)使得数据可分。通常，判别式模型在分类任务中的表现要好于生成式模型。但判别模型建模过程中通常为有监督的，而且难以被扩展成无监督的。常见的判别式模型有： Logistic regression Linear discriminant analysis Support vector machines Boosting Conditional random fields Linear regression Neural networks生... 阅读全文

posted @ 2011-11-16 15:32 COS 阅读(344) 评论(1) 推荐(1)

Likelihood principle【转】

摘要： Likelihood principleFrom Wikipedia, the free encyclopediaInstatistics, thelikelihood principleis a controversial principle ofstatistical inferencewhich asserts that all of theinformationin asampleis contained in thelikelihood function.Alikelihood functionarises from aconditional probability distribu 阅读全文

posted @ 2011-11-16 15:24 COS 阅读(494) 评论(0) 推荐(1)

TF-IDF【转】

摘要： TF-IDF维基百科，自由的百科全书TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，互联网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。目录[隐藏]1原理2例子3在向量空间模阅读全文

posted @ 2011-11-16 15:20 COS 阅读(449) 评论(1) 推荐(1)

2011年11月14日

Latent Dirichlet allocation【转】

摘要： Latent Dirichlet allocationFrom Wikipedia, the free encyclopediaInstatistics,latent Dirichlet allocation (LDA)is agenerative modelthat allows sets of observations to be explained byunobservedgroups that explain why some parts of the data are similar. For example, if observations are words collected 阅读全文

posted @ 2011-11-14 14:11 COS 阅读(975) 评论(0) 推荐(0)

Plate notation【转】

摘要： Plate notationFrom Wikipedia, the free encyclopediaPlate notationis a method of representing variables that repeat in agraphical model. Instead of drawing each repeated variable individually, a plate or rectangle is used to group variables into a subgraph that repeat together, and a number is drawn 阅读全文

posted @ 2011-11-14 14:07 COS 阅读(879) 评论(0) 推荐(1)

Probabilistic latent semantic analysis【转】

摘要： Probabilistic latent semantic analysis (PLSA), also known asprobabilistic latent semantic indexing(PLSI, especially in information retrieval circles) is astatistical techniquefor the analysis of two-mode and co-occurrence data. PLSA evolved fromlatent semantic analysis, adding a sounder probabilisti 阅读全文

posted @ 2011-11-14 13:41 COS 阅读(569) 评论(0) 推荐(1)

2011年11月10日

Matlab编程学习笔记【待续】

摘要：最近想用Matlab进行数据分析，算法性能测试，平时由于用的是C、C++，因此很多习惯都一时改不了，这里自己列出来一些Matlab中明显不同的地方。矩阵单元元素访问方式：A(1,2)---A[1][2]选取矩阵某个行或者列：A(:,1);%选取矩阵第一列.A(1,:);%选取矩阵第一行矩阵单元以及数组等起始下标：行和列都是从1开始，A(1,1)为第一个元素 A(0,1)则是越界相应的A（1，columns）不越界Matlab矩阵的存放是列优先，而我们平时的都是行优先。例如：A是一个2行2列的矩阵。A（2）代表的是A（2,1）而不是A(1,2)运算符号：~表示！，| & 相应的表示| 阅读全文

posted @ 2011-11-10 21:15 COS 阅读(933) 评论(2) 推荐(1)

2011年11月9日

诡异难解决的错误：Windows已在xxx.exe中触发一个断点

摘要： windows已在xxx.exe中触发一个断点,其原因可能是堆被损坏,这说明xx.exe中或它所加载的任何DLL中有bug。原因也可能是用户在xx.exe具有焦点时按下了F12。输出窗口可能提供了更多诊断信息。当碰到此种错误的时候，基本上是因为我们在编写程序的时候，在处理数组或者指针的时候出现了越界（最可能）或者超长的情况，从而导致了对栈堆的损坏。我自己的程序就是因为一个很隐藏的变量没有置零造成的，在每次重用cor空间时，correlation记得置为0了，而cor_index却没有set 为 0.因而随着多次重用，cor_index的值越来越大，从而在访问cor[cor_... 阅读全文

posted @ 2011-11-09 23:34 COS 阅读(13780) 评论(0) 推荐(3)

2011年11月8日

C文件操作fopen打开标记设置问题【学习笔记】

摘要：函数原型：FILE * fopen(const char * path,const char * mode); 返回值：文件顺利打开后，指向该流的文件指针就会被返回。如果文件打开失败则返回NULL，并把错误代码存在errno 中。一般而言，打开文件后会作一些文件读取或写入的动作，若打开文件失败，接下来的读写动作也无法顺利进行，所以一般在fopen()后作错误判断及处理。参数说明：参数path字符串包含欲打开的文件路径及文件名，参数mode字符串则代表着流形态。 mode有下列几种形态字符串: r 以只读方式打开文件，该文件必须存在。 r+ 以可读写方式打开... 阅读全文

posted @ 2011-11-08 10:32 COS 阅读(510) 评论(0) 推荐(1)

2011年11月7日

matlab文件操作及读txt文件【转】

摘要：文件操作是一种重要的输入输出方式，即从数据文件读取数据或将结果写入数据文件。MATLAB提供了一系列低层输入输出函数，专门用于文件操作。1、文件的打开与关闭1）打开文件在读写文件之前，必须先用fopen函数打开或创建文件，并指定对该文件进行的操作方式。fopen函数的调用格式为：fid=fopen（文件名，‘打开方式’）说明：其中fid用于存储文件句柄值，如果返回的句柄值大于0，则说明文件打开成功。文件名用字符串形式，表示待打开的数据文件。常见的打开方式如下： ‘r’：只读方式打开文件（默认的方式），该文件必须已存在。 ‘r+’：读写方式打开文件，打开后先读后写。该文件必须已存在。 ‘w 阅读全文

posted @ 2011-11-07 20:27 COS 阅读(855) 评论(0) 推荐(1)

linux下vim命令详解【转】

摘要：高级一些的编辑器，都会包含宏功能，vim当然不能缺少了，在vim中使用宏是非常方便的：:qx 开始记录宏，并将结果存入寄存器xq 退出记录模式@x 播放记录在x寄存器中的宏命令稍微解释一下，当在normal模式下输入:qx后，你对文本的所有编辑动作将会被记录下来，再次输入q即退出了记录模式，然后输入@x对刚才记录下来的命令进行重复，此命令后可跟数字，表示要重复多少次，比如@x20，可以重复20次。这个在文本的批处理中是非常有用的。同时编辑多个文件在vim众多的插件中，有一个叫minibuffer的插件，就是下面所说的标签页功能了，可以支持同时编辑多个文件。标签命令:tabe fn 在一个新的标阅读全文

posted @ 2011-11-07 15:50 COS 阅读(445) 评论(0) 推荐(1)

2011年11月4日

Ubuntu下如何使用虚拟机安装WindowsXP？(2)【转】

摘要： Ubuntu下如何使用虚拟机安装WindowsXP？(2)windowsXP系统下使用虚拟机安装ubuntu系统可能对于大多数用户来说不是问题，但是ubuntu系统下如何使用虚拟机安装windowsXP系统呢？下文给出了详细的步骤，具体内容如下所述。AD：大小自定义，根据需要多大就分出来多大，不用太大，以后不够了还可以自己增加虚拟磁盘；位置可以选择Windows分区，因为这样不会占用 Ubuntu分区的空间，缺点是每次启动虚拟机前需要手动挂在一次你放虚拟机的位置（很简单：位置——你放虚拟机的分区）。设置完沉点击下一步，点击完成，这样我们的第一个虚拟机就新建完了！如图：开始之前还有一件事要做，阅读全文

posted @ 2011-11-04 07:21 COS 阅读(391) 评论(0) 推荐(1)

Ubuntu下如何使用虚拟机安装WindowsXP？(1)【转】

摘要： windowsXP系统下使用虚拟机安装ubuntu系统可能对于大多数用户来说不是问题，但是ubuntu系统下如何使用虚拟机安装windowsXP系统呢？下文给出了详细的步骤，具体内容如下所述。AD：windowsXP系统下使用虚拟机安装ubuntu系统可能对于大多数用户来说不是问题，但是ubuntu系统下如何使用虚拟机安装windowsXP系统呢？下文给出了详细的步骤，具体内容如下所述。首先下载虚拟机，（下载地址）今天说的虚拟机是SUN公司出品的免费虚拟机：sunvirtualbox这款虚拟机大小之后41.8M，功能却很强大！下载完成后直接双击就可以安装了。下载完成得到这个文件：双击打开开始安阅读全文

posted @ 2011-11-04 07:17 COS 阅读(477) 评论(0) 推荐(1)

2011年11月1日

Latent semantic indexing【转】

摘要： Latent Semantic Indexing (LSI) is an indexing and retrieval method that uses a mathematical technique called Singular value decomposition (SVD) to identify patterns in the relationships between the terms and concepts contained in an unstructured collection of text. LSI is based on the principle that 阅读全文

posted @ 2011-11-01 16:37 COS 阅读(587) 评论(0) 推荐(1)