2017 年 5月随笔档案 - MSTK

Spark实现K-Means算法

摘要：K-Means算法是一种基于距离的聚类算法，采用迭代的方法，计算出K个聚类中心，把若干个点聚成K类。 MLlib实现K-Means算法的原理是，运行多个K-Means算法，每个称为run，返回最好的那个聚类的类簇中心。初始的类簇中心，可以是随机的，也可以是KMean||得来的，迭代达到一定的次数，或阅读全文

posted @ 2017-05-31 20:03 MSTK 阅读(12165) 评论(0) 推荐(0)

Spark GraphX实例(3)

摘要：7. 图的聚合操作图的聚合操作主要的方法有： (1) Graph.mapReduceTriplets()：该方法有一个mapFunc和一个reduceFunc，mapFunc对图中的每一个EdgeTriplet进行处理，生成一个或者多个消息，并且将这些消息发送个Edge的一个或者两个顶点，redu 阅读全文

posted @ 2017-05-30 16:29 MSTK 阅读(1361) 评论(0) 推荐(0)

Spark GraphX实例(2)

摘要：5. 图的转换操作图的转换操作主要有以下的方法： (1) Graph.mapVertices()：对图的顶点进行转换，返回一张新图； (2) Graph.mapEdges()：对图的边进行转换，返回一张新图。代码：运行结果： 6. 图的结构操作图的结构操作主要有： (1) Graph.sub 阅读全文

posted @ 2017-05-27 21:53 MSTK 阅读(780) 评论(0) 推荐(0)

Scala字符串插值

摘要：Scala提供了三种字符串插值方式：s，f和raw。1. s字符串插值器简单的说就是解析字符串变量。第2行是最简单的用法，第3行为了区分变量名加了{}，第4行是进行了运算。运行结果： 2. f字符串插值器可以进行格式化的输出，变量名后用%指定格式，如果没有指定，其作用和s是一样的。运行结果：阅读全文

posted @ 2017-05-24 21:31 MSTK 阅读(932) 评论(0) 推荐(0)

Scala的Class、Object和Apply()方法

摘要：Scala中如果一个Class和一个Object同名，则称Class是Object的伴生类。Scala没有Java的Static修饰符，Object下的成员和方法都是静态的，类似于Java里面加了Static修饰符的成员和方法。Class和Object都可以定义自己的Apply()方法，类名()调用阅读全文

posted @ 2017-05-24 15:08 MSTK 阅读(661) 评论(0) 推荐(0)

Spark GraphX实例(1)

摘要：Spark GraphX是一个分布式的图处理框架。社交网络中，用户与用户之间会存在错综复杂的联系，如微信、QQ、微博的用户之间的好友、关注等关系，构成了一张巨大的图，单机无法处理，只能使用分布式图处理框架处理，Spark GraphX就是一种分布式图处理框架。 1. POM文件在项目的pom文件中阅读全文

posted @ 2017-05-22 20:44 MSTK 阅读(6065) 评论(0) 推荐(0)

java.lang.ClassNotFoundException: SparkPi$$anonfun$1

摘要：出现这个错误可能有两种情况，Jar文件没有传上去，或者Build Path里面包含的Jar文件和Spark的运行环境有冲突。对于第一种情况，需要在SparkConf语句后面加上Jar文件的路径：对于第二种情况，需要把Build Path里面的Jar文件删除，因为Spark运行环境已经有这些文件了阅读全文

posted @ 2017-05-18 20:29 MSTK 阅读(2087) 评论(0) 推荐(0)

Intellij IDEA连接Spark集群

摘要：1. 首先安装Scala插件，File->Settings->Plugins，搜索出Scla插件，点击Install安装； 2. File->New Project->maven，新建一个Maven项目，填写GroupId和ArtifactId； 3. 编辑pom.xml文件，添加项目所需要的依赖：阅读全文

posted @ 2017-05-18 19:12 MSTK 阅读(10645) 评论(0) 推荐(1)

Container [pid=6263,containerID=container_1494900155967_0001_02_000001] is running beyond virtual memory limits

摘要：以Spark-Client模式运行，Spark-Submit时出现了下面的错误：意思是说Container要用2.2GB的内存，而虚拟内存只有2.1GB，不够用了，所以Kill了Container。我的SPARK-EXECUTOR-MEMORY设置的是1G，即物理内存是1G，Yarn默认的虚拟内阅读全文

posted @ 2017-05-16 10:18 MSTK 阅读(3123) 评论(0) 推荐(1)

Spark的运行模式(2)--Yarn-Cluster和Yarn-Client

摘要：3. Yarn-Cluster Yarn是一种统一资源管理机制，可以在上面运行多种计算框架。Spark on Yarn模式分为两种：Yarn-Cluster和Yarn-Client，前者Driver运行在Worker节点，后者Driver运行在Client节点上。采用Spark on Yarn模式，阅读全文

posted @ 2017-05-15 17:14 MSTK 阅读(5546) 评论(0) 推荐(0)

Spark的运行模式(1)--Local和Standalone

摘要：Spark一共有5种运行模式：Local，Standalone，Yarn-Cluster，Yarn-Client和Mesos。 1. Local Local模式即单机模式，如果在命令语句中不加任何配置，则默认是Local模式，在本地运行。这也是部署、设置最简单的一种模式 2. Standalone 阅读全文

posted @ 2017-05-15 15:25 MSTK 阅读(5271) 评论(2) 推荐(0)

Java Netty (2)

摘要：通过一个实例来说明Netty的使用。用1个服务器连接5个客户端线程，客户端连接上服务器以后就向服务器发送消息，服务器接收到消息后向客户端返回消息，客户端接收到消息以后，等待随机的时间，再向服务端发送消息，这样一直循环下去。项目结构： NettyServer.java: ServerPipeline 阅读全文

posted @ 2017-05-01 12:36 MSTK 阅读(765) 评论(0) 推荐(0)

代码空间

Computer Vision/Machine Learning/Evolutionary Computation...

05 2017 档案

公告