05 2017 档案
摘要:K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类。 MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的那个聚类的类簇中心。初始的类簇中心,可以是随机的,也可以是KMean||得来的,迭代达到一定的次数,或
阅读全文
摘要:7. 图的聚合操作 图的聚合操作主要的方法有: (1) Graph.mapReduceTriplets():该方法有一个mapFunc和一个reduceFunc,mapFunc对图中的每一个EdgeTriplet进行处理,生成一个或者多个消息,并且将这些消息发送个Edge的一个或者两个顶点,redu
阅读全文
摘要:5. 图的转换操作 图的转换操作主要有以下的方法: (1) Graph.mapVertices():对图的顶点进行转换,返回一张新图; (2) Graph.mapEdges():对图的边进行转换,返回一张新图。 代码: 运行结果: 6. 图的结构操作 图的结构操作主要有: (1) Graph.sub
阅读全文
摘要:Scala提供了三种字符串插值方式:s,f和raw。1. s字符串插值器简单的说就是解析字符串变量。 第2行是最简单的用法,第3行为了区分变量名加了{},第4行是进行了运算。 运行结果: 2. f字符串插值器 可以进行格式化的输出,变量名后用%指定格式,如果没有指定,其作用和s是一样的。 运行结果:
阅读全文
摘要:Scala中如果一个Class和一个Object同名,则称Class是Object的伴生类。Scala没有Java的Static修饰符,Object下的成员和方法都是静态的,类似于Java里面加了Static修饰符的成员和方法。Class和Object都可以定义自己的Apply()方法,类名()调用
阅读全文
摘要:Spark GraphX是一个分布式的图处理框架。社交网络中,用户与用户之间会存在错综复杂的联系,如微信、QQ、微博的用户之间的好友、关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理框架处理,Spark GraphX就是一种分布式图处理框架。 1. POM文件 在项目的pom文件中
阅读全文
摘要:出现这个错误可能有两种情况,Jar文件没有传上去,或者Build Path里面包含的Jar文件和Spark的运行环境有冲突。 对于第一种情况,需要在SparkConf语句后面加上Jar文件的路径: 对于第二种情况,需要把Build Path里面的Jar文件删除,因为Spark运行环境已经有这些文件了
阅读全文
摘要:1. 首先安装Scala插件,File->Settings->Plugins,搜索出Scla插件,点击Install安装; 2. File->New Project->maven,新建一个Maven项目,填写GroupId和ArtifactId; 3. 编辑pom.xml文件,添加项目所需要的依赖:
阅读全文
摘要:以Spark-Client模式运行,Spark-Submit时出现了下面的错误: 意思是说Container要用2.2GB的内存,而虚拟内存只有2.1GB,不够用了,所以Kill了Container。 我的SPARK-EXECUTOR-MEMORY设置的是1G,即物理内存是1G,Yarn默认的虚拟内
阅读全文
摘要:3. Yarn-Cluster Yarn是一种统一资源管理机制,可以在上面运行多种计算框架。Spark on Yarn模式分为两种:Yarn-Cluster和Yarn-Client,前者Driver运行在Worker节点,后者Driver运行在Client节点上。采用Spark on Yarn模式,
阅读全文
摘要:Spark一共有5种运行模式:Local,Standalone,Yarn-Cluster,Yarn-Client和Mesos。 1. Local Local模式即单机模式,如果在命令语句中不加任何配置,则默认是Local模式,在本地运行。这也是部署、设置最简单的一种模式 2. Standalone
阅读全文
摘要:通过一个实例来说明Netty的使用。用1个服务器连接5个客户端线程,客户端连接上服务器以后就向服务器发送消息,服务器接收到消息后向客户端返回消息,客户端接收到消息以后,等待随机的时间,再向服务端发送消息,这样一直循环下去。 项目结构: NettyServer.java: ServerPipeline
阅读全文