摘要: 创建RDD有两种方式:①读取外部数据集,lines=sc.textFile("README.md")。②对一个集合进行并行化,lines=sc.parallelize(["zhangsan","lisi"])。 2.从http://files.grouplens.org/datasets/movie 阅读全文
posted @ 2016-07-22 16:05 天羽星河落 阅读(469) 评论(0) 推荐(0) 编辑
摘要: Spart是什么 Spart是一个用来实现快速而而通用的集群计算平台。 在速度方面,Spart扩展了广泛使用的Mapreduce计算模型,而且高效的支持更多的计算模式,包括交互式查询和流处理。Spart的一个主要特点是能够在内存中进行计算,因而更快。即使必须在硬盘上进行复杂计算,Spart依然比Ma 阅读全文
posted @ 2016-07-22 16:02 天羽星河落 阅读(954) 评论(0) 推荐(0) 编辑
摘要: Watcher是Zookeeper用来实现distribute lock, distribute configure, distribute queue等应用的主要手段。要监控data_tree上的任何节点的变化(节点本身的增加,删除,数据修改,以及孩子的变化)都可以在获取该数据时注册一个Watch 阅读全文
posted @ 2016-07-22 16:01 天羽星河落 阅读(3165) 评论(0) 推荐(0) 编辑
摘要: shuffle机制 1:每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件 阅读全文
posted @ 2016-07-22 16:00 天羽星河落 阅读(447) 评论(0) 推荐(0) 编辑
摘要: 1.分析记录手机流量的日志。 2.拿到日志中的一行数据,切分各个字段,抽取出我们需要的字段:手机号,上行流量,下行流量,然后封装成kv发送出去 3.使用java中的map方法; public class FlowNumMapper extends Mapper<LongWritable,Text,T 阅读全文
posted @ 2016-07-22 15:58 天羽星河落 阅读(1302) 评论(0) 推荐(0) 编辑
摘要: Demo是基于Socket的简单通信 下面通过java原生的序列化,Socket通信,动态代理和反射机制,实现最简单的RPC框架。它由三个部分组成。 1.服务提供者,它运行在服务端,负责提供服务接口定义和服务实现类。 2.服务发布者,它运行在RPC服务端,负责将本地服务发布完成远程服务,供其他消费者 阅读全文
posted @ 2016-07-22 15:57 天羽星河落 阅读(905) 评论(0) 推荐(0) 编辑
摘要: 在linux中,在JAVA中编程,耗时的不是代码的编写而是环境的搭建,版本的选择。。。昨天eclipse突然抽风在linux运行不起来,耗了几个小时,试了各种办法、、。现在windows环境进行编码。JDK为1.7 首先新建一个Java project 。 手动导入hadoop的jar包,位置在ha 阅读全文
posted @ 2016-07-22 15:54 天羽星河落 阅读(704) 评论(0) 推荐(0) 编辑
摘要: RPC(Remote Procedure Call Protocol)远程过程调用协议。一个通俗的描述是:客户端在不知道调用细节的情况下,调用存在于远程计算机上的某个对象,就像调用本地应用程序中的对象一样。比较正式的描述是:一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。那么 阅读全文
posted @ 2016-07-22 15:54 天羽星河落 阅读(8398) 评论(0) 推荐(0) 编辑
摘要: DataNode的作用:提供真实文件数据的存储服务.以文件块进行存储。 文件块(block):最基本的存储单位。对文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个block。HDFS默认的block大小是128M,以 阅读全文
posted @ 2016-07-22 15:53 天羽星河落 阅读(681) 评论(0) 推荐(0) 编辑
摘要: 元数据的管理: 第一步:客户端通过DistributedFilesystem 对象中的creat()方法来创建文件,此时,RPC会 通过一个RPC链接协议来调用namenode,并在命名空间中创建一个新文件,namenode执行各种权限以及文件isexist 的检查,dfs返回一个输出流,否则抛出 阅读全文
posted @ 2016-07-22 15:52 天羽星河落 阅读(946) 评论(0) 推荐(0) 编辑