kalor - 博客园

协方差及协方差矩阵的含义

摘要：统计学的基本概念学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。均值：方差：均值方差的意义我就不多说了，均值就是描述样本总体水品的，班级平均分你总归明白的吧。方差呢就是描述样本稳定性的，比如你的成绩，一会儿全班第一，一会儿不及格，这就是方差很大。张三总是在班级前十，但也没当过第一，这方差就比较小。那么协方差到底是做什么用的呢？我们一直在讨论一个随机变量的情况，一个随机变量的均值，一个随机变量的方差，当涉及到两个随机变量的时候，有时候我们要... 阅读全文

posted @ 2013-06-24 16:17 kalor 阅读(1229) 评论(0) 推荐(1) 编辑

EM思想详述

摘要：转自：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.htmlEM是我一直想深入学习的算法之一，第一次听说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式回顾优化理论中的一些概念。设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。当x是向量时，如果其hessian矩阵H是半正定的（），那么f是凸函数。如果或者，那么称f是严格凸函数。阅读全文

posted @ 2013-06-14 15:29 kalor 阅读(843) 评论(0) 推荐(0) 编辑

最大似然估计法

摘要：转自：http://www.cnblogs.com/kevinGaoblog/archive/2012/03/29/2424369.html最大似然估计的原理：给定一个概率分布，假定其概率密度函数（连续分布）或概率聚集函数（离散分布）为，以及一个分布参数，我们可以从这个分布中抽出一个具有个值的采样，通过利用，我们就能计算出其概率：但是，我们可能不知道的值，尽管我们知道这些采样数据来自于分布。那么我们如何才能估计出呢？一个自然的想法是从这个分布中抽出一个具有个值的采样，然后用这些采样数据来估计.一旦我们获得，我们就能从中找到一个关于的估计。最大似然估计会寻找关于的最可能的值（即，在所有可能的取值阅读全文

posted @ 2013-06-12 17:11 kalor 阅读(1341) 评论(0) 推荐(0) 编辑

似然函数Concept

摘要：转自：http://www.cnblogs.com/kevinGaoblog/archive/2012/03/29/2424346.html在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。似然函数在统计推断中有重大作用，如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。在这种意义上，似然函数可以阅读全文

posted @ 2013-06-12 17:01 kalor 阅读(190) 评论(0) 推荐(0) 编辑

Linux之grep

摘要： 1. 递归搜索文件$ grep "text" . -R -n命令中的" . " 指定了当前目录2. 在grep搜索中包括或排除文件such as 只在目录中递归搜索所有的.java和.class文件：$ grep "VertexInputFormat" . -r --include *.{java,class}3. 在搜索中排除所有的README文件$ grep "license" . -r --exclude "README"4. 在文件中搜索某个单词$ grep match_word mat 阅读全文

posted @ 2013-06-11 15:01 kalor 阅读(232) 评论(0) 推荐(0) 编辑

Linux之Shell脚本创建

摘要： 1. 空白文件创建的几种方式：landen@landen-Lenovo:~$ cd Linux_Studylanden@landen-Lenovo:~/Linux_Study$ touch grepGiraphlanden@landen-Lenovo:~/Linux_Study$ lsgrepGiraphlanden@landen-Lenovo:~/Linux_Study$ > grepTestlanden@landen-Lenovo:~/Linux_Study$ lsgrepGiraph grepTestlanden@landen-Lenovo:~/Linux_Study$ echo 阅读全文

posted @ 2013-06-10 22:09 kalor 阅读(401) 评论(0) 推荐(0) 编辑

MPI并行计算环境搭建以及集群测试

摘要：转自：http://wuyanzan60688.blog.163.com/blog/static/12777616320132851924235/ MPI作为一种通过消息传递进行并行计算的框架，在很多科学计算上有很重要的应用，这次因为GraphLab环境搭建时的需要，花了三个来小时的时间进行了初步的搭建摸索，感觉很有意思！首先是单机MPI安装1.安装之前因为是集群测试，所以跟hadoop一样先要设置ssh无密钥登录（可以参考这里），我这里用的是一个服务器节点和一台虚拟机。上面给出的链接里对ssh无密钥登录设置说的很清楚。2.开始安装源码下载地址，这里我用的是1.0.8（mpich命名很怪气，明阅读全文

posted @ 2013-06-04 11:48 kalor 阅读(1792) 评论(0) 推荐(0) 编辑

GraphLab:新的面向机器学习的并行框架

摘要：转自：http://blog.csdn.net/cs870101/article/details/8072458mapreducegraphlocking多线程框架引擎[+] 1.1 GraphLab简介在海量数据盛行的今天，大规模并行计算已经随处可见，尤其是MapReduce框架的出现，促进了并行计算在互联网海量数据处理中的广泛应用。而针对海量数据的机器学习对并行计算的性能、开发复杂度等提出了新的挑战。机器学习的算法具有下面两个特点：数据依赖性强，运算过程各个机器之间要进行频繁的数据交换；流处理复杂，整个处理过程需要多次迭代，数据的处理条件分支多。而MapReduce是典型的SIMD模型，M 阅读全文

posted @ 2013-06-04 11:38 kalor 阅读(300) 评论(0) 推荐(0) 编辑

GraphLab图谱分析

摘要：被冷落的大数据热点：图谱分析转自：http://www.ctocio.com/ccnews/12340.html开源项目GraphLab的公司化，标志着图谱数据库和图谱处理应用的商业化进程已经启动。GraphLab是一个流行的图谱分析和机器学习的开源项目，最近该项目剥离出一个独立运作的商业公司GraphLab Inc，其创始人，华盛顿大学机器学习专业教授Carlos Guestrin将负责公司的运作，目前GraphLab已经从Madrona Venture Group和NEA募集了675万美元资金。图谱分析是大数据集分析的热门领域，主要被用来分析数据节点之间的关系和相似度。“图谱”一词源自社阅读全文

posted @ 2013-06-02 22:13 kalor 阅读(515) 评论(0) 推荐(0) 编辑

golang微信公众平台之人脸识别

摘要：转自：http://www.cnblogs.com/wlts/archive/2013/06/02/3113526.html好吧，其实整个都是建立在face++的基础上的，没有任何技术含量，我只是个勤劳的搬运工。所能实现的就是简单的，你发送一个图片过来，如果里面是一个人，则告诉你分析出来的年龄、性别；如果是两个人，就告诉你，这两个人眉毛、眼睛、鼻子、嘴巴及整体的相似度。微信公众平台，怎么说呢，还是传统的一问一答的形式，你发个信息过来，我收到了处理下，再给你回馈一条信息，就是这么简单。简单的你来我往先说信息互传的问题，微信公众平台是post过来一个xml，服务器端打包一个xml发回去。从最简单的阅读全文

posted @ 2013-06-02 15:45 kalor 阅读(698) 评论(0) 推荐(0) 编辑

导航

2013年6月24日

2013年6月14日

2013年6月12日

2013年6月11日

2013年6月10日

2013年6月4日

2013年6月2日