06 2017 档案

摘要:1. 贝叶斯定理 条件概率公式: 这个公式非常简单,就是计算在B发生的情况下,A发生的概率。但是很多时候,我们很容易知道P(A|B),需要计算的是P(B|A),这时就要用到贝叶斯定理: 2. 朴素贝叶斯分类 朴素贝叶斯分类的推导过程就不详述了,其流程可以简单的用一张图来表示: 举个简单的例子来说,下 阅读全文
posted @ 2017-06-23 14:16 MSTK 阅读(2620) 评论(2) 推荐(0) 编辑
摘要:保序回归即给定了一个无序的数字序列,通过修改其中元素的值,得到一个非递减的数字序列,要求是使得误差(预测值和实际值差的平方)最小。比如在动物身上实验某种药物,使用了不同的剂量,按理说剂量越大,有效的比例就应该越高,但是如果发现了剂量大反而有效率降低了,这个时候就只有把无序的两个元素合并了,重新计算有 阅读全文
posted @ 2017-06-15 18:46 MSTK 阅读(2957) 评论(0) 推荐(0) 编辑
摘要:逻辑回归本质上也是一种线性回归,和普通线性回归不同的是,普通线性回归特征到结果输出的是连续值,而逻辑回归增加了一个函数g(z),能够把连续值映射到0或者1。 MLLib的逻辑回归类有两个:LogisticRegressionWithSGD和LogisticRegressionWithLBFGS,前者 阅读全文
posted @ 2017-06-15 17:55 MSTK 阅读(4950) 评论(0) 推荐(1) 编辑
摘要:线性回归算法,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 1. 梯度下降法 线性回归可以使用最小二乘法,但是速度比较慢,因此一般使用梯度下降法(Gradient Descent),梯度下降法又分为批量梯度下降法(Batch Gradient Desce 阅读全文
posted @ 2017-06-13 18:33 MSTK 阅读(2379) 评论(0) 推荐(0) 编辑
摘要:1. Aggregate Aggregate即聚合操作。直接上代码: acc即(0,0),number即data,seqOp将data的值累加到Tuple的第一个元素,将data的个数累加到Tuple的第二个元素。由于没有分区,所以combOp是不起作用的,这个例子里面即使分区了,combOp起作用 阅读全文
posted @ 2017-06-13 12:39 MSTK 阅读(8772) 评论(0) 推荐(0) 编辑
摘要:下载apache-flume-1.7.0-bin.tar.gz,用 解压,在/etc/profile文件中增加设置: 修改$FLUME_HOME/conf/下的两个文件,在flume-env.sh中增加JAVA_HOME: 最重要的,修改flume-conf.properties文件: 以上文件设置 阅读全文
posted @ 2017-06-10 22:31 MSTK 阅读(4535) 评论(0) 推荐(0) 编辑
摘要:Kafka是一种分布式发布订阅消息系统。 Kafka有三种模式: (1)单节点单Broker,在一台机器上运行一个Kafka实例; (2)单节点多Broker,在一台机器上运行多个Kafka实例; (3)多截点多Broker,在多台机器上运行多个Kafka实例。 本文直接以第三种模式进行安装。 首先 阅读全文
posted @ 2017-06-08 18:15 MSTK 阅读(771) 评论(0) 推荐(0) 编辑
摘要:Nginx是一个高性能的HTTP服务器和反向代理服务器。当一个服务器访问量太大时(比如C10k问题,Concurrent 10,000 Connection),就可以安装设置一个Nginx服务器,将客户端的访问映射到多个服务器上,从而降低每一个服务器的负载。 1. Nginx的编译和安装 在Cent 阅读全文
posted @ 2017-06-07 17:01 MSTK 阅读(594) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示