09 2015 档案
摘要:原文:http://blog.chinaunix.net/uid-128922-id-289992.htmlxargs在linux中是个很有用的命令,它经常和其他命令组合起来使用,非常的灵活.xargs是给命令传递参数的一个过滤器,也是组合多个命令的一个工具.它把一个数据流分割为一些足够小的块,以方...
阅读全文
摘要:原文:http://alexkong.net/2013/06/introduction-to-auc-and-roc/为什么使用ROC曲线既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集...
阅读全文
摘要:原文:http://www.williamlong.info/archives/433.html正则表达式(Regular Expression,在代码中常简写为regex、regexp或RE)是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑...
阅读全文
摘要:原文:http://www.2cto.com/os/201308/239136.html$()和${}的用法:在 bash shell 中,$( ) 与 ` ` (反引号) 都是用来做命令替换用(command substitution)的。而 $( ) 并不见的每一种 shell 都能使用,若你用...
阅读全文
摘要:原文:http://blog.csdn.net/tigerjibo/article/details/7423728C语言中堆和栈的区别一.前言:C语言程序经过编译连接后形成编译、连接后形成的二进制映像文件由栈,堆,数据段(由三部分部分组成:只读数据段,已经初始化读写数据段,未初始化数据段即BBS)和...
阅读全文
摘要:原文:http://www.cnblogs.com/and_he/archive/2012/04/17/2453703.html关于try...catch...finally里面的return一直是面试的一个热门考点。无非就分以下几个情况:1、当有finally语句并且try中有return,在执行...
阅读全文
摘要:http://book.51cto.com/art/201306/399686.htm例题解析(5)【例3-3-42】设系统中仅有一类数量为M的独占型资源,系统中N个进程竞争该类资源,其中各进程对该类资源的最大需求量为W,当M、N、W分别取下列值时,试判断哪些情况会发生死锁,为什么?(1)M 2,N...
阅读全文
摘要:原文:http://nvie.com/posts/a-successful-git-branching-model/In this post I present the development model that I’ve introduced for all of my projects (bo...
阅读全文
摘要:http://blog.sciencenet.cn/blog-509534-728984.html分支定界 (branch and bound) 算法是一种在问题的解空间树上搜索问题的解的方法。但与回溯算法不同,分支定界算法采用广度优先或最小耗费优先的方法搜索解空间树,并且,在分支定界算法中,每一个...
阅读全文
摘要:原文:http://blog.csdn.net/yujianmin1990/article/details/48223001 数据的形式是多种多样的,维度也是各不相同的,当实际问题中遇到很高的维度时,如何给他降到较低的维度上?前文提到进行属性选择,当然这是一种很好的方法,这里另外提供一种从高维特征空...
阅读全文
摘要:本文主要基于Anand Rajaraman和Jeffrey David Ullman合著,王斌翻译的《大数据-互联网大规模数据挖掘与分布式处理》一书。KMeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中...
阅读全文
摘要:原文:http://blog.csdn.net/shiwei408/article/details/7602324在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很...
阅读全文
摘要:原文:http://peghoty.blog.163.com/blog/static/49346409201302595935709/正确率、召回率和 F 值是在鱼龙混杂的环境中,选出目标的重要评价指标。不妨看看这些指标的定义先: 1. 正确率 = 正确识别的个体总数 / 识别出的个体总数 2. 召...
阅读全文
摘要:原文:http://blog.csdn.net/buptgshengod/article/details/46819051首先还是要声明一下,这个文章是我在入职阿里云1个月以来,对于分布式计算的一点肤浅的认识,可能有些地方不够妥善,还请看官可以指出不足的地方,共同进步。一.背景随着互联网的发展,数据...
阅读全文
摘要:原文:http://dataunion.org/13451.html作者:xbinworld引言:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据...
阅读全文
摘要:原文:http://luowei828.blog.163.com/blog/static/310312042013101401524824通常而言,损失函数由损失项(loss term)和正则项(regularization term)组成。发现一份不错的介绍资料:http://www.ics.uc...
阅读全文
摘要:原文:http://segmentfault.com/a/1190000002472791朴素贝叶斯(Naive Bayes Classifier)是一种「天真」的算法(假定所有特征发生概率是独立的),同时也是一种简单有效的常用分类算法。关于它的原理,参见朴素贝叶斯分类器的应用。scikit-lea...
阅读全文
摘要:原文:http://blog.csdn.net/u012162613/article/details/44261657本文是《Neural networks and deep learning》概览中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充)正则化方法:防止过拟合...
阅读全文
摘要:http://blog.renren.com/share/223170925/14708690013常用显著性检验 1.t检验 适用于计量资料、正态分布、方差具有齐性的两组间小样本比较。包括配对资料间、样本与均数间、两样本均数间比较三种,三者的计算公式不能混淆。 2.t'检验 应用条件与t检...
阅读全文