Hbase集群搭建及所有配置调优参数整理及API代码运行
摘要:最近为了方便开发,在自己的虚拟机上搭建了三节点的Hadoop集群与Hbase集群,hadoop集群的搭建与zookeeper集群这里就不再详细说明,原来的笔记中记录过。这里将hbase配置参数进行相应整理,方便日后使用。 首先vi ~/.bash_profile将hbase的环境变量进行配置,最后s
阅读全文
posted @
2016-05-31 01:30
松伯
阅读(8974)
推荐(0) 编辑
RPC远程过程调用协议
摘要:最近学习Hadoop、Hbase、Spark及Storm原理,经常会出现RPC这样的传输术语,为了更好地理解,将知识点详细的整理下吧~ RPC 它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。
阅读全文
posted @
2016-05-31 00:31
松伯
阅读(697)
推荐(0) 编辑
Hbase条件筛选
摘要:需求来自于,模糊查找当天的所有记录,并查找对应列的记录数 其实可以都写成内置过滤器,不过HBase还没有深入学习,暂时先这样写啦~
阅读全文
posted @
2016-05-30 17:55
松伯
阅读(1366)
推荐(0) 编辑
Hadoop数据读写原理
摘要:数据流 MapReduce作业(job)是客户端执行的单位:它包括输入数据、MapReduce程序和配置信息。Hadoop把输入数据划分成等长的小数据发送到MapReduce,称之为输入分片。Hadoop为每个分片创建一个map任务,由它来运行用户自定义的map函数来分析每个分片中的记录。 这里分片
阅读全文
posted @
2016-05-28 16:14
松伯
阅读(2242)
推荐(0) 编辑
Hbase客户端API基础小结笔记(未完)
摘要:客户端API:基础 HBase的主要客户端接口是由org.apache.hadoop.hbase.client包中的HTable类提供的,通过这个类,用户可以完成向HBase存储和检索数据,以及删除无效数据之类的操作。 通常在正常负载下和常规操作下,客户端读操作不会受到其他修改数据的客户端影响,因为
阅读全文
posted @
2016-05-28 01:44
松伯
阅读(854)
推荐(0) 编辑
MapReduce Shuffle原理 与 Spark Shuffle原理
摘要:MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。 为什么MapReduce计算模型需要Shuffle
阅读全文
posted @
2016-05-25 22:25
松伯
阅读(4577)
推荐(0) 编辑
Hbase预分区种子生成
摘要:提前生成Hbase预分区种子,在创建Hbase表时也进行相应的预分区,同时设置预分区的个数,预分区的范围对应Hbase监控页面的Region Server的start key与End key,从而使数据能够均匀的分布于各个Region中.给捷哥赞一个~
阅读全文
posted @
2016-05-25 16:16
松伯
阅读(839)
推荐(1) 编辑
MapReduce、Hbase接口API实践
摘要:读取hdfs中文件并做处理,取出卡号,通过卡号连接hbase查询出对应客户号,写入redis,因为不用输出,所以不调用context.write方法,整个操作在一个map中便可完成
阅读全文
posted @
2016-05-25 11:01
松伯
阅读(712)
推荐(0) 编辑
Spring技术揭幕----DispatcherServlet
摘要:Spring MVC是一个MVC模式的实现。在Spring MVC的使用中,需要在web.xml中配置DispatcherServlet,也就是说其核心是一个Servlet,这个DispatcherServlet实现的是Sun的J2EE核心模式中的前端控制器模式(Front Controller),
阅读全文
posted @
2016-05-21 19:32
松伯
阅读(255)
推荐(0) 编辑
Redis应用场景
摘要:Redis开创了一种新的数据存储思路,使用Redis,我们不用在面对功能单调的数据库时,把精力放在如何把大象放进冰箱这样的问题上,而是利用Redis灵活多变的数据结构和数据操作,为不同的大象构建不同的冰箱。 Redis常用数据类型 Redis最为常用的数据类型主要有以下五种: String Hash
阅读全文
posted @
2016-05-21 17:35
松伯
阅读(321)
推荐(0) 编辑
Hive操作表部分总结
摘要:创建表: create table tableName(time INT,userid BIGINT,url STRING,ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the tableName table' PARTIT
阅读全文
posted @
2016-05-18 01:33
松伯
阅读(572)
推荐(0) 编辑
HBase体系结构
摘要:HBase的服务器体系结构遵从简单的主从服务器架构,它由HRegion服务器(HRegion Service)群和HBase Master服务器(HBase Master Server)构成。Hbase Master服务器负责管理所有的HRegion服务器,而Hbase中所有的服务器是通过Zooke
阅读全文
posted @
2016-05-15 20:30
松伯
阅读(1121)
推荐(0) 编辑
Hadoop的管理目录
摘要:HDFS文件结构 1、NameNode的文件结构,NameNode会创建VERSION、edits、fsimage、fstime文件目录。其中dfs.name.dir属性是一个目录列表,是每个目录的镜像文件。VERSION文件是JAVA属性文件,其中包含运行HDFS的版本信息。包含内容: 其中,na
阅读全文
posted @
2016-05-15 19:22
松伯
阅读(364)
推荐(0) 编辑
Storm Bolt接口
摘要:Bolt是Topology中数据处理的基本单元,也是Storm针对处理过程的编程单元。Topology中所有的处理都是在这些bolt中完成的。 Bolt可以将数据项发送至多个数据流(Stream)。编程人员首先可以使用OutputFieldsDeclarer类的declareStream()方法声明
阅读全文
posted @
2016-05-14 01:00
松伯
阅读(822)
推荐(0) 编辑
Hadoop I/O操作原理整理
摘要:I/O操作中的数据检查 校验和方式是检查数据完整性的重要方式。一般会通过对比新旧校验和来确定数据情况,如果两者不同则说明数据已经损坏。比如,在传输数据前生成了一个校验和,将数据传输到目的主机时再次计算校验和,如果两次的校验结果不同,则说明数据已经损坏。因为Hadoop采用HDFS作为默认的文件系统,
阅读全文
posted @
2016-05-14 00:04
松伯
阅读(800)
推荐(0) 编辑
Storm Topology及分组原理
摘要:Storm的通信机制,需要满足如下一些条件以满足Storm的语义。 1、建立数据传输的缓冲区。在通信连接没有建立之前把发送的数据缓存起来。数据发送方可以在连接建立之前发送消息,而不需要等连接建立起来,可是的接收方是独立运行的。 2、在消息传输层保证消息最多只能发送一次,Storm系统有ACK机制,是
阅读全文
posted @
2016-05-13 00:41
松伯
阅读(710)
推荐(0) 编辑
MapReduce编程job概念原理
摘要:在Hadoop中,每个MapReduce任务都被初始化为一个job,每个job又可分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示。Map函数接收一个<key,value>形式的输入,然后同样产生一个<ey,value>形式的中间输出,Hadoop会负责将所有具有相同中间k
阅读全文
posted @
2016-05-12 22:13
松伯
阅读(3828)
推荐(0) 编辑
MapReduce单表关联学习~
摘要:首先考虑表的自连接,其次是列的设置,最后是结果的整理. 文件内容: 输出结果: 参考:《Hadoop实战》
阅读全文
posted @
2016-05-12 01:52
松伯
阅读(535)
推荐(0) 编辑
MapReduce排序输出
摘要:hadoop的map是具有输出自动排序功能的~继续学习~
阅读全文
posted @
2016-05-11 00:13
松伯
阅读(1558)
推荐(0) 编辑
行为统计学第二章知识总结(未完)
摘要:如何将数据组织成某些可理解的形式,使得他可以比较容易地发现数据的趋势,并与其他人交流,这就是描述性统计的任务:简化结构并整理组织数据。整理一组数据的最常用过程是将数据放入一个频数分布。 频数分布是一种组织好的关于位于测量量表每个类别上的个体数目的数据表。 频数分布的结构可以是表或涂,但是,在这两种情
阅读全文
posted @
2016-05-10 00:08
松伯
阅读(813)
推荐(0) 编辑
行为科学统计第一章知识点总结
摘要:1、什么是总体?什么是样本?总体是一个研究的所有研究对象的个体的集合。样本是被选择出来的参与研究的特定的个体集合。样本被期望能够代表总体。 2、描述总体的特性的,如总体的平均数,被称为 参数。 3、总体和参数之间的关系与样本和 统计量 之间的关系是一样的。 4、统计技术被分为两大类。它们分别被称为什
阅读全文
posted @
2016-05-08 13:26
松伯
阅读(884)
推荐(0) 编辑
JVM垃圾回收参数说明整理
摘要:-server: 启用-server时新生代默认采用并行收集,其他情况下,默认不启用。-server策略为:新生代使用并行清除,年老代使用单线程Mark-Sweep-Compact的垃圾收集器。 -XX:+UseConcMarkSweepGC: 设置年老代为并发收集。 -XX:+UseAdaptiv
阅读全文
posted @
2016-05-08 10:48
松伯
阅读(2857)
推荐(0) 编辑
RestTemplate
摘要:RestTemplate是Spring提供的用于访问Rest服务的客户端,RestTemplate提供了多种便捷访问远程Http服务的方法,能够大大提高客户端的编写效率。调用RestTemplate的默认构造函数,RestTemplate对象在底层通过使用java.net包下的实现创建HTTP 请求
阅读全文
posted @
2016-05-06 23:44
松伯
阅读(2600)
推荐(0) 编辑
SparkContext源码阅读
摘要:SparkContext是spark的入口,通过它来连接集群、创建RDD、广播变量等等。
阅读全文
posted @
2016-05-06 22:55
松伯
阅读(790)
推荐(0) 编辑
Scala学习笔记
摘要:1、for循环格式for(i <- 1 to 10){print(i)} 2、懒加载 lazy val a = 1; 直到用时才会加载 3、方法的声明格式 def(x:Int,y:Int) : Int ={} 最后一个冒号后面是返回类型,不加则没有返回值 4、默认参数 def loadConf(co
阅读全文
posted @
2016-05-02 14:57
松伯
阅读(249)
推荐(0) 编辑