11 2018 档案
摘要:一、LinkedBlockingDeque简介 java6增加了两种容器类型,Deque和BlockingDeque,它们分别对Queue和BlockingQueue进行了扩展。 Deque是一个双端队列,deque(双端队列) 是 "Double Ended Queue" 的缩写。因此,双端队列是
阅读全文
摘要:1.什么是阻塞队列阻塞队列常用于生产者和消费者的场景,生产者是往队列里添加元素的线程,消费者是从队列里拿元素的线程。阻塞队列就是生产者存放元素的容器,而消费者也只从容器里拿元素。 BlockingQueue有两个常见阻塞场景当队列中没有数据的情况下,消费者端的所有线程都会被自动阻塞(挂起),直到有数
阅读全文
摘要:启动Hadoop 进入HADOOP_HOME目录。执行sh bin/start-all.sh 关闭Hadoop 进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容 hadoop dfs –ls [文件目录] eg: hadoop dfs –ls /use
阅读全文
摘要:Hadoop排序工具用法小结 发表于 2014 年 8 月 25 日 由 fish Hadoop用于对key的排序和分桶的设置选项比较多和复杂,目前在公司内主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用户广泛使用。 基本概念: Pa
阅读全文
摘要:一. AWK入门指南 一. AWK入门指南 « AWK程序设计语言 :: Contents :: 二. AWK语言详解 » « AWK程序设计语言 :: Contents :: 二. AWK语言详解 » 一. AWK入门指南 Awk是一种便于使用且表达能力强的程序设计语言,可应用于各种计算和数据处理
阅读全文
摘要:1. 前言 应 @龙星镖局 兄邀请写这篇文章。作为一个非常有效的机器学习方法,Boosted Tree是数据挖掘和机器学习中最常用的算法之一。因为它效果好,对于输入要求不敏感,往往是从统计学家到数据科学家必备的工具之一,它同时也是kaggle比赛冠军选手最常用的工具。最后,因为它的效果好,计算复杂度
阅读全文
摘要:1、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值
阅读全文
摘要:数据的形式是多种多样的,维度也是各不相同的,当实际问题中遇到很高的维度时,如何给他降到较低的维度上?前文提到进行属性选择,当然这是一种很好的方法,这里另外提供一种从高维特征空间向低纬特征空间映射的思路。 数据降维的目的 数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息
阅读全文
摘要:1. 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多
阅读全文
摘要:1.引言 看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticRegression部分,写下此篇学习笔记总结一下。 首先说一下我的感受,《机器学习实战》一书在介绍原理的同时将全部的算法用源代码实
阅读全文
摘要:贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: 其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类
阅读全文
摘要:内容大纲: 1 Storm是什么 Storm 是一个分布式实时大数据处理系统,可以帮助我们方便地处理海量数据,具有高可靠、高容错、高扩展的特点。 Storm 是流式框架,有很高的数据吞吐能力,Strom 本身是无状态的,通过 ZooKeeper 管理分布式集群环境和集群状态。 Strom 的安装和使
阅读全文
摘要:什么是深度学习? 深度学习是机器学习的一个子领域,研究受人工神经网络的大脑的结构和功能启发而创造的算法。 wiki:深度学习是机器学习的分支,它试图使用包含复杂结构或者由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 李彦宏:简单的说,深度学习就是一个函数集,如此而已。 深度学习又称无监督
阅读全文
摘要:Parameter Server架构 现在的机器学习系统,但凡是大一点的公司,恐怕都在用分布式了。而在分布式机器学习领域,最出名的恐怕就是少帅的PS框架了。在本博文里,PS框架特指第三代PS框架,即少帅的PS框架,PS框架在本文里有和分布式机器学习框架等同的意义。 本片博客是论文笔记性质,特此声明。
阅读全文
摘要:在大规模数据上跑机器学习任务是过去十多年内系统架构师面临的主要挑战之一,许多模型和抽象先后用于这一任务。从早期的MPI,到后来的Hadoop,乃至于目前使用较多的Spark,都曾被广泛应用于大规模机器学习处理任务。John Langford曾经在他的博客(机器学习领域最好的博客之一)上总结和对比了主
阅读全文
摘要:前言 (标题不能再中二了)本文仅对一些常见的优化方法进行直观介绍和简单的比较,各种优化方法的详细内容及公式只好去认真啃论文了,在此我就不赘述了。 SGD 此处的SGD指mini-batch gradient descent,关于batch gradient descent, stochastic g
阅读全文
摘要:作者:燕燕于飞差池其羽 链接:https://zhuanlan.zhihu.com/p/40825565 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 synchronized的缺陷 synchronized是java中的一个关键字,也就是说是Java语言内置的特
阅读全文
摘要:1、先cd到根目录,执行git config --global credential.helper store命令 2、执行之后会在.gitconfig文件中多加红色字体项 3、之后cd到项目目录,执行git pull命令,会提示输入账号密码。输完这一次以后就不再需要,并且会在根目录生成一个.git
阅读全文
摘要:(预警:因为详细,所以行文有些长,新手边看边操作效果出乎你的预料)一:Git是什么?Git是目前世界上最先进的分布式版本控制系统。工作原理 / 流程: Workspace:工作区Index / Stage:暂存区Repository:仓库区(或本地仓库)Remote:远程仓库 二:SVN与Git的最
阅读全文
摘要:一:简单说明 ScheduleExecutorService接口中有四个重要的方法,其中scheduleAtFixedRate和scheduleWithFixedDelay在实现定时程序时比较方便。 下面是该接口的原型定义 java.util.concurrent.ScheduleExecutorS
阅读全文
摘要:简介 学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率。由条件概率公式推导出贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A);即,已知P(A|B),P(A)和P(B)可以计
阅读全文
摘要:交叉熵(Cross-Entropy)交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。 1.什么是信息量?假设X是一个离散型随机变量,其取值集合为X,概率分布函数为p(x)=Pr(X=x),x∈p(x)=Pr(X=x),x∈X,我们定义事件X=x0X=x0的信息量
阅读全文

浙公网安备 33010602011771号