上一页 1 2 3 4 5 6 7 8 9 ··· 13 下一页
摘要: 1. LDA基础知识 LDA(Latent Dirichlet Allocation)是一种主题模型。LDA一个三层贝叶斯概率模型,包含词、主题和文档三层结构。 LDA是一个生成模型,可以用来生成一篇文档,生成时,首先根据一定的概率选择一个主题,然后在根据概率选择主题里面的一个单词,这样反复进行,就 阅读全文
posted @ 2017-07-12 12:19 MSTK 阅读(3065) 评论(0) 推荐(0) 编辑
摘要: KMenas算法比较简单,不详细介绍了,直接上代码。 运行结果: 阅读全文
posted @ 2017-07-11 18:10 MSTK 阅读(900) 评论(0) 推荐(1) 编辑
摘要: 1. 决策树基本知识 决策树就是通过一系列规则对数据进行分类的一种算法,可以分为分类树和回归树两类,分类树处理离散变量的,回归树是处理连续变量。 样本一般都有很多个特征,有的特征对分类起很大的作用,有的特征对分类作用很小,甚至没有作用。如决定是否对一个人贷款是,这个人的信用记录、收入等就是主要的判断 阅读全文
posted @ 2017-07-06 21:53 MSTK 阅读(5059) 评论(2) 推荐(0) 编辑
摘要: 1. SVM基本知识 SVM(Support Vector Machine)是一个类分类器,能够将不同类的样本在样本空间中进行分隔,分隔使用的面叫做分隔超平面。 比如对于二维样本,分布在二维平面上,此时超平面实际上是一条直线,直线上面是一类,下面是另一类。定义超平面为: f(x)=w0+wTx 可以 阅读全文
posted @ 2017-07-05 23:52 MSTK 阅读(5235) 评论(0) 推荐(0) 编辑
摘要: 1. 贝叶斯定理 条件概率公式: 这个公式非常简单,就是计算在B发生的情况下,A发生的概率。但是很多时候,我们很容易知道P(A|B),需要计算的是P(B|A),这时就要用到贝叶斯定理: 2. 朴素贝叶斯分类 朴素贝叶斯分类的推导过程就不详述了,其流程可以简单的用一张图来表示: 举个简单的例子来说,下 阅读全文
posted @ 2017-06-23 14:16 MSTK 阅读(2607) 评论(2) 推荐(0) 编辑
摘要: 保序回归即给定了一个无序的数字序列,通过修改其中元素的值,得到一个非递减的数字序列,要求是使得误差(预测值和实际值差的平方)最小。比如在动物身上实验某种药物,使用了不同的剂量,按理说剂量越大,有效的比例就应该越高,但是如果发现了剂量大反而有效率降低了,这个时候就只有把无序的两个元素合并了,重新计算有 阅读全文
posted @ 2017-06-15 18:46 MSTK 阅读(2932) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归本质上也是一种线性回归,和普通线性回归不同的是,普通线性回归特征到结果输出的是连续值,而逻辑回归增加了一个函数g(z),能够把连续值映射到0或者1。 MLLib的逻辑回归类有两个:LogisticRegressionWithSGD和LogisticRegressionWithLBFGS,前者 阅读全文
posted @ 2017-06-15 17:55 MSTK 阅读(4944) 评论(0) 推荐(1) 编辑
摘要: 线性回归算法,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 1. 梯度下降法 线性回归可以使用最小二乘法,但是速度比较慢,因此一般使用梯度下降法(Gradient Descent),梯度下降法又分为批量梯度下降法(Batch Gradient Desce 阅读全文
posted @ 2017-06-13 18:33 MSTK 阅读(2370) 评论(0) 推荐(0) 编辑
摘要: 1. Aggregate Aggregate即聚合操作。直接上代码: acc即(0,0),number即data,seqOp将data的值累加到Tuple的第一个元素,将data的个数累加到Tuple的第二个元素。由于没有分区,所以combOp是不起作用的,这个例子里面即使分区了,combOp起作用 阅读全文
posted @ 2017-06-13 12:39 MSTK 阅读(8756) 评论(0) 推荐(0) 编辑
摘要: 下载apache-flume-1.7.0-bin.tar.gz,用 解压,在/etc/profile文件中增加设置: 修改$FLUME_HOME/conf/下的两个文件,在flume-env.sh中增加JAVA_HOME: 最重要的,修改flume-conf.properties文件: 以上文件设置 阅读全文
posted @ 2017-06-10 22:31 MSTK 阅读(4526) 评论(0) 推荐(0) 编辑
摘要: Kafka是一种分布式发布订阅消息系统。 Kafka有三种模式: (1)单节点单Broker,在一台机器上运行一个Kafka实例; (2)单节点多Broker,在一台机器上运行多个Kafka实例; (3)多截点多Broker,在多台机器上运行多个Kafka实例。 本文直接以第三种模式进行安装。 首先 阅读全文
posted @ 2017-06-08 18:15 MSTK 阅读(771) 评论(0) 推荐(0) 编辑
摘要: Nginx是一个高性能的HTTP服务器和反向代理服务器。当一个服务器访问量太大时(比如C10k问题,Concurrent 10,000 Connection),就可以安装设置一个Nginx服务器,将客户端的访问映射到多个服务器上,从而降低每一个服务器的负载。 1. Nginx的编译和安装 在Cent 阅读全文
posted @ 2017-06-07 17:01 MSTK 阅读(593) 评论(0) 推荐(0) 编辑
摘要: K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类。 MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的那个聚类的类簇中心。初始的类簇中心,可以是随机的,也可以是KMean||得来的,迭代达到一定的次数,或 阅读全文
posted @ 2017-05-31 20:03 MSTK 阅读(12139) 评论(0) 推荐(0) 编辑
摘要: 7. 图的聚合操作 图的聚合操作主要的方法有: (1) Graph.mapReduceTriplets():该方法有一个mapFunc和一个reduceFunc,mapFunc对图中的每一个EdgeTriplet进行处理,生成一个或者多个消息,并且将这些消息发送个Edge的一个或者两个顶点,redu 阅读全文
posted @ 2017-05-30 16:29 MSTK 阅读(1352) 评论(0) 推荐(0) 编辑
摘要: 5. 图的转换操作 图的转换操作主要有以下的方法: (1) Graph.mapVertices():对图的顶点进行转换,返回一张新图; (2) Graph.mapEdges():对图的边进行转换,返回一张新图。 代码: 运行结果: 6. 图的结构操作 图的结构操作主要有: (1) Graph.sub 阅读全文
posted @ 2017-05-27 21:53 MSTK 阅读(759) 评论(0) 推荐(0) 编辑
摘要: Scala提供了三种字符串插值方式:s,f和raw。1. s字符串插值器简单的说就是解析字符串变量。 第2行是最简单的用法,第3行为了区分变量名加了{},第4行是进行了运算。 运行结果: 2. f字符串插值器 可以进行格式化的输出,变量名后用%指定格式,如果没有指定,其作用和s是一样的。 运行结果: 阅读全文
posted @ 2017-05-24 21:31 MSTK 阅读(916) 评论(0) 推荐(0) 编辑
摘要: Scala中如果一个Class和一个Object同名,则称Class是Object的伴生类。Scala没有Java的Static修饰符,Object下的成员和方法都是静态的,类似于Java里面加了Static修饰符的成员和方法。Class和Object都可以定义自己的Apply()方法,类名()调用 阅读全文
posted @ 2017-05-24 15:08 MSTK 阅读(649) 评论(0) 推荐(0) 编辑
摘要: Spark GraphX是一个分布式的图处理框架。社交网络中,用户与用户之间会存在错综复杂的联系,如微信、QQ、微博的用户之间的好友、关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理框架处理,Spark GraphX就是一种分布式图处理框架。 1. POM文件 在项目的pom文件中 阅读全文
posted @ 2017-05-22 20:44 MSTK 阅读(6005) 评论(0) 推荐(0) 编辑
摘要: 出现这个错误可能有两种情况,Jar文件没有传上去,或者Build Path里面包含的Jar文件和Spark的运行环境有冲突。 对于第一种情况,需要在SparkConf语句后面加上Jar文件的路径: 对于第二种情况,需要把Build Path里面的Jar文件删除,因为Spark运行环境已经有这些文件了 阅读全文
posted @ 2017-05-18 20:29 MSTK 阅读(2081) 评论(0) 推荐(0) 编辑
摘要: 1. 首先安装Scala插件,File->Settings->Plugins,搜索出Scla插件,点击Install安装; 2. File->New Project->maven,新建一个Maven项目,填写GroupId和ArtifactId; 3. 编辑pom.xml文件,添加项目所需要的依赖: 阅读全文
posted @ 2017-05-18 19:12 MSTK 阅读(10612) 评论(0) 推荐(1) 编辑
摘要: 以Spark-Client模式运行,Spark-Submit时出现了下面的错误: 意思是说Container要用2.2GB的内存,而虚拟内存只有2.1GB,不够用了,所以Kill了Container。 我的SPARK-EXECUTOR-MEMORY设置的是1G,即物理内存是1G,Yarn默认的虚拟内 阅读全文
posted @ 2017-05-16 10:18 MSTK 阅读(3101) 评论(0) 推荐(1) 编辑
摘要: 3. Yarn-Cluster Yarn是一种统一资源管理机制,可以在上面运行多种计算框架。Spark on Yarn模式分为两种:Yarn-Cluster和Yarn-Client,前者Driver运行在Worker节点,后者Driver运行在Client节点上。采用Spark on Yarn模式, 阅读全文
posted @ 2017-05-15 17:14 MSTK 阅读(5520) 评论(0) 推荐(0) 编辑
摘要: Spark一共有5种运行模式:Local,Standalone,Yarn-Cluster,Yarn-Client和Mesos。 1. Local Local模式即单机模式,如果在命令语句中不加任何配置,则默认是Local模式,在本地运行。这也是部署、设置最简单的一种模式 2. Standalone 阅读全文
posted @ 2017-05-15 15:25 MSTK 阅读(5266) 评论(2) 推荐(0) 编辑
摘要: 通过一个实例来说明Netty的使用。用1个服务器连接5个客户端线程,客户端连接上服务器以后就向服务器发送消息,服务器接收到消息后向客户端返回消息,客户端接收到消息以后,等待随机的时间,再向服务端发送消息,这样一直循环下去。 项目结构: NettyServer.java: ServerPipeline 阅读全文
posted @ 2017-05-01 12:36 MSTK 阅读(754) 评论(0) 推荐(0) 编辑
摘要: Netty是由JBOSS提供的一个java开源框架,本质上也是NIO,是对NIO的封装,比NIO更加高级,功能更加强大。可以说发展的路线是IO->NIO->Netty。 ServerBootstrap和ClientBootstrap是Netty中两个比较重要的类,分别用来进行服务器和客户端的初始化。 阅读全文
posted @ 2017-04-30 21:36 MSTK 阅读(655) 评论(0) 推荐(0) 编辑
摘要: Java NIO (New IO)是Java 1.4版本开始引入的新的IO API。和IO的区别在于NIO是一个异步、非阻塞的IO,可以用一个线程管理多个连接。比如1个服务器,5个客户端,如果用IO,在服务器上就需要5个线程,而使用NIO的话,只需要1个线程就可以同时管理5个连接,节约了资源。 NI 阅读全文
posted @ 2017-04-26 22:09 MSTK 阅读(197) 评论(0) 推荐(0) 编辑
摘要: Channel注册到Selector时添加了一个Object: 后来取这个Object: 出现空指针错误: 很奇怪,后来发现第一次注册时添加了Object,后来注册时没有添加,导致了空指针错误: 每次注册都添加Object,就不会有这个错误了: 阅读全文
posted @ 2017-04-26 21:00 MSTK 阅读(1668) 评论(0) 推荐(0) 编辑
摘要: NIO项目中出现了这个错误: 一般是因为InetSocketAddress的主机名、端口号写错,或者要连接的服务器没有启动造成的。 阅读全文
posted @ 2017-04-26 20:34 MSTK 阅读(21357) 评论(0) 推荐(0) 编辑
摘要: 在Eclipse下新建一个Map/Reduce项目,并将以下jar添加到Build path: 程序代码: 以上程序调用HBAse的API,实现了新建一张表,并随机向表里插入数据。 阅读全文
posted @ 2017-04-16 16:42 MSTK 阅读(2471) 评论(0) 推荐(0) 编辑
摘要: 集群共三台CentOS虚拟机,一个Matser,主机名为master;三个Worker,主机名分别为master、slave03、slave04。前提是Hadoop和Zookeeper已经安装并且开始运行。 1. 在master上下载Scala-2.11.0.tgz,复制到/opt/下面,解压,在/ 阅读全文
posted @ 2017-04-11 17:18 MSTK 阅读(2599) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 13 下一页