摘要:
统计学的基本概念学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。均值:方差: 均值方差的意义我就不多说了,均值就是描述样本总体水品的,班级平均分你总归明白的吧。方差呢就是描述样本稳定性的,比如你的成绩,一会儿全班第一,一会儿不及格,这就是方差很大。张三总是在班级前十,但也没当过第一,这方差就比较小。 那么协方差到底是做什么用的呢? 我们一直在讨论一个随机变量的情况,一个随机变量的均值,一个随机变量的方差,当涉及到两个随机变量的时候,有时候我们要...
阅读全文
posted @ 2013-06-24 16:17
kalor
阅读(1229)
推荐(1)
编辑
摘要:
转自:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.htmlEM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(),那么f是凸函数。如果或者,那么称f是严格凸函数。
阅读全文
posted @ 2013-06-14 15:29
kalor
阅读(843)
推荐(0)
编辑
摘要:
转自:http://www.cnblogs.com/kevinGaoblog/archive/2012/03/29/2424369.html最大似然估计的原理:给定一个概率分布,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为,以及一个分布参数,我们可以从这个分布中抽出一个具有个值的采样,通过利用,我们就能计算出其概率:但是,我们可能不知道的值,尽管我们知道这些采样数据来自于分布。那么我们如何才能估计出呢?一个自然的想法是从这个分布中抽出一个具有个值的采样,然后用这些采样数据来估计.一旦我们获得,我们就能从中找到一个关于的估计。最大似然估计会寻找关于的最可能的值(即,在所有可能的取值
阅读全文
posted @ 2013-06-12 17:11
kalor
阅读(1341)
推荐(0)
编辑
摘要:
转自:http://www.cnblogs.com/kevinGaoblog/archive/2012/03/29/2424346.html在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。概率 用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性 则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。在这种意义上,似然函数可以
阅读全文
posted @ 2013-06-12 17:01
kalor
阅读(190)
推荐(0)
编辑
摘要:
1. 递归搜索文件$ grep "text" . -R -n命令中的" . " 指定了当前目录2. 在grep搜索中包括或排除文件such as 只在目录中递归搜索所有的.java和.class文件:$ grep "VertexInputFormat" . -r --include *.{java,class}3. 在搜索中排除所有的README文件$ grep "license" . -r --exclude "README"4. 在文件中搜索某个单词$ grep match_word mat
阅读全文
posted @ 2013-06-11 15:01
kalor
阅读(232)
推荐(0)
编辑
摘要:
1. 空白文件创建的几种方式:landen@landen-Lenovo:~$ cd Linux_Studylanden@landen-Lenovo:~/Linux_Study$ touch grepGiraphlanden@landen-Lenovo:~/Linux_Study$ lsgrepGiraphlanden@landen-Lenovo:~/Linux_Study$ > grepTestlanden@landen-Lenovo:~/Linux_Study$ lsgrepGiraph grepTestlanden@landen-Lenovo:~/Linux_Study$ echo
阅读全文
posted @ 2013-06-10 22:09
kalor
阅读(401)
推荐(0)
编辑
摘要:
转自:http://wuyanzan60688.blog.163.com/blog/static/12777616320132851924235/ MPI作为一种通过消息传递进行并行计算的框架,在很多科学计算上有很重要的应用,这次因为GraphLab环境搭建时的需要,花了三个来小时的时间进行了初步的搭建摸索,感觉很有意思!首先是单机MPI安装1.安装之前因为是集群测试,所以跟hadoop一样先要设置ssh无密钥登录(可以参考这里),我这里用的是一个服务器节点和一台虚拟机。上面给出的链接里对ssh无密钥登录设置说的很清楚。2.开始安装源码下载地址,这里我用的是1.0.8(mpich命名很怪气,明
阅读全文
posted @ 2013-06-04 11:48
kalor
阅读(1792)
推荐(0)
编辑
摘要:
转自:http://blog.csdn.net/cs870101/article/details/8072458mapreducegraphlocking多线程框架引擎[+] 1.1 GraphLab简介在海量数据盛行的今天,大规模并行计算已经随处可见,尤其是MapReduce框架的出现,促进了并行计算在互联网海量数据处理中的广泛应用。而针对海量数据的机器学习对并行计算的性能、开发复杂度等提出了新的挑战。机器学习的算法具有下面两个特点:数据依赖性强,运算过程各个机器之间要进行频繁的数据交换;流处理复杂,整个处理过程需要多次迭代,数据的处理条件分支多。而MapReduce是典型的SIMD模型,M
阅读全文
posted @ 2013-06-04 11:38
kalor
阅读(300)
推荐(0)
编辑
摘要:
被冷落的大数据热点:图谱分析转自:http://www.ctocio.com/ccnews/12340.html开源项目GraphLab的公司化,标志着图谱数据库和图谱处理应用的商业化进程已经启动。GraphLab是 一个流行的图谱分析和机器学习的开源项目,最近该项目剥离出一个独立运作的商业公司GraphLab Inc,其创始人,华盛顿大学机器学习专业教授Carlos Guestrin将负责公司的运作,目前GraphLab已经从Madrona Venture Group和NEA募集了675万美元资金。图谱分析是大数据集分析的热门领域,主要被用来分析数据节点之间的关系和相似度。“图谱”一词源自社
阅读全文
posted @ 2013-06-02 22:13
kalor
阅读(515)
推荐(0)
编辑
摘要:
转自:http://www.cnblogs.com/wlts/archive/2013/06/02/3113526.html好吧,其实整个都是建立在face++的基础上的,没有任何技术含量,我只是个勤劳的搬运工。所能实现的就是简单的,你发送一个图片过来,如果里面是一个人,则告诉你分析出来的年龄、性别;如果是两个人,就告诉你,这两个人眉毛、眼睛、鼻子、嘴巴及整体的相似度。微信公众平台,怎么说呢,还是传统的一问一答的形式,你发个信息过来,我收到了处理下,再给你回馈一条信息,就是这么简单。简单的你来我往先说信息互传的问题,微信公众平台是post过来一个xml,服务器端打包一个xml发回去。从最简单的
阅读全文
posted @ 2013-06-02 15:45
kalor
阅读(698)
推荐(0)
编辑