05 2017 档案

摘要:K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类。 MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的那个聚类的类簇中心。初始的类簇中心,可以是随机的,也可以是KMean||得来的,迭代达到一定的次数,或 阅读全文
posted @ 2017-05-31 20:03 MSTK 阅读(12150) 评论(0) 推荐(0) 编辑
摘要:7. 图的聚合操作 图的聚合操作主要的方法有: (1) Graph.mapReduceTriplets():该方法有一个mapFunc和一个reduceFunc,mapFunc对图中的每一个EdgeTriplet进行处理,生成一个或者多个消息,并且将这些消息发送个Edge的一个或者两个顶点,redu 阅读全文
posted @ 2017-05-30 16:29 MSTK 阅读(1361) 评论(0) 推荐(0) 编辑
摘要:5. 图的转换操作 图的转换操作主要有以下的方法: (1) Graph.mapVertices():对图的顶点进行转换,返回一张新图; (2) Graph.mapEdges():对图的边进行转换,返回一张新图。 代码: 运行结果: 6. 图的结构操作 图的结构操作主要有: (1) Graph.sub 阅读全文
posted @ 2017-05-27 21:53 MSTK 阅读(774) 评论(0) 推荐(0) 编辑
摘要:Scala提供了三种字符串插值方式:s,f和raw。1. s字符串插值器简单的说就是解析字符串变量。 第2行是最简单的用法,第3行为了区分变量名加了{},第4行是进行了运算。 运行结果: 2. f字符串插值器 可以进行格式化的输出,变量名后用%指定格式,如果没有指定,其作用和s是一样的。 运行结果: 阅读全文
posted @ 2017-05-24 21:31 MSTK 阅读(926) 评论(0) 推荐(0) 编辑
摘要:Scala中如果一个Class和一个Object同名,则称Class是Object的伴生类。Scala没有Java的Static修饰符,Object下的成员和方法都是静态的,类似于Java里面加了Static修饰符的成员和方法。Class和Object都可以定义自己的Apply()方法,类名()调用 阅读全文
posted @ 2017-05-24 15:08 MSTK 阅读(654) 评论(0) 推荐(0) 编辑
摘要:Spark GraphX是一个分布式的图处理框架。社交网络中,用户与用户之间会存在错综复杂的联系,如微信、QQ、微博的用户之间的好友、关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理框架处理,Spark GraphX就是一种分布式图处理框架。 1. POM文件 在项目的pom文件中 阅读全文
posted @ 2017-05-22 20:44 MSTK 阅读(6021) 评论(0) 推荐(0) 编辑
摘要:出现这个错误可能有两种情况,Jar文件没有传上去,或者Build Path里面包含的Jar文件和Spark的运行环境有冲突。 对于第一种情况,需要在SparkConf语句后面加上Jar文件的路径: 对于第二种情况,需要把Build Path里面的Jar文件删除,因为Spark运行环境已经有这些文件了 阅读全文
posted @ 2017-05-18 20:29 MSTK 阅读(2085) 评论(0) 推荐(0) 编辑
摘要:1. 首先安装Scala插件,File->Settings->Plugins,搜索出Scla插件,点击Install安装; 2. File->New Project->maven,新建一个Maven项目,填写GroupId和ArtifactId; 3. 编辑pom.xml文件,添加项目所需要的依赖: 阅读全文
posted @ 2017-05-18 19:12 MSTK 阅读(10620) 评论(0) 推荐(1) 编辑
摘要:以Spark-Client模式运行,Spark-Submit时出现了下面的错误: 意思是说Container要用2.2GB的内存,而虚拟内存只有2.1GB,不够用了,所以Kill了Container。 我的SPARK-EXECUTOR-MEMORY设置的是1G,即物理内存是1G,Yarn默认的虚拟内 阅读全文
posted @ 2017-05-16 10:18 MSTK 阅读(3106) 评论(0) 推荐(1) 编辑
摘要:3. Yarn-Cluster Yarn是一种统一资源管理机制,可以在上面运行多种计算框架。Spark on Yarn模式分为两种:Yarn-Cluster和Yarn-Client,前者Driver运行在Worker节点,后者Driver运行在Client节点上。采用Spark on Yarn模式, 阅读全文
posted @ 2017-05-15 17:14 MSTK 阅读(5530) 评论(0) 推荐(0) 编辑
摘要:Spark一共有5种运行模式:Local,Standalone,Yarn-Cluster,Yarn-Client和Mesos。 1. Local Local模式即单机模式,如果在命令语句中不加任何配置,则默认是Local模式,在本地运行。这也是部署、设置最简单的一种模式 2. Standalone 阅读全文
posted @ 2017-05-15 15:25 MSTK 阅读(5267) 评论(2) 推荐(0) 编辑
摘要:通过一个实例来说明Netty的使用。用1个服务器连接5个客户端线程,客户端连接上服务器以后就向服务器发送消息,服务器接收到消息后向客户端返回消息,客户端接收到消息以后,等待随机的时间,再向服务端发送消息,这样一直循环下去。 项目结构: NettyServer.java: ServerPipeline 阅读全文
posted @ 2017-05-01 12:36 MSTK 阅读(756) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示