随笔分类 - Hadoop
摘要:Hbase计数器可以用于统计用户数,点击量等信息基本操作可以使用incr操作计数器,incr语法格式如下:incr '', '', '', ||然后使用get_counter可以获取对应的计数器的值不用初始化计数器,第一次使用计数器时,计数器被自动设置为0eg:对于wishTest1表incr 'w...
阅读全文
摘要:说明:类似于RDBMS中触发器,允许用户在region服务器上运行自己的代码,在客户端用户不用关心操作具体在哪进行使用场景:权限控制,回调函数(钩子函数)、扫描统计等主要类:observer和endpointobserver:类似触发器,回调函数在特定事件发生时执行endpoint:类似数据库存储过...
阅读全文
摘要:sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive、hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入从RDBMS中抽取出的数据可以被MapReduce程序使用,也可以被类似Hive的工具使用;得到分析结果后sqoop可以将结果导回数据库,...
阅读全文
摘要:org.apache.hadoop.hbase.MasterNotRunningException在centos中查看,发现没有HMaster进程解决方法:1.启动hadoop后,需要等一段时间,再开启hbase2、启动hadoop后,去掉hadoop的安全模式,然后启动hbasehadoop df...
阅读全文
摘要:相关知识创建表插入数据删除等见:http://www.cnblogs.com/wishyouhappy/p/3735077.htmlHBase API简介见:http://www.cnblogs.com/wishyouhappy/p/3753347.html按行、列簇等查询package wish....
阅读全文
摘要:概括1. 创建、删除及启用禁用表、添加列等都需用到HBaseAdmin,另外需要注意删除,添加列等操作都需要禁用表2. 表中添加数据,查询等都是和HTable相关,如果是多线程的情况下注意用HTablePool3. 插入数据使用Put,可以单行添加也可批量添加4. 查询数据需使用Get,Result...
阅读全文
摘要:前言1. 创建表:(由master完成)首先需要获取master地址(master启动时会将地址告诉zookeeper)因而客户端首先会访问zookeeper获取master的地址client和master通信,然后有master来创建表(包括表的列簇,是否cache,设置存储的最大版本数,是否压缩...
阅读全文
摘要:说明MapReduce是一种分布式计算模型,解决海量数据的计算问题,主要有Map和Reduce组成用户使用时需要实现map()和reduce()两个函数,两个函数的形参都是key/value键值对若以eclipse为开发环境,运行时出现内存不足的情况,需要修改虚拟机的参数 (例如把Default V...
阅读全文
摘要:1. 概括适合一次写入多次查询情况,不支持并发写情况通过hadoop shell 上传的文件存放在DataNode的block中,通过linux shell只能看见block,看不见文件(HDFS将客户端的大文件存放在很多节点的数据块中,Block本质上是一个逻辑概念,它是hdfs读写数据的基本单位...
阅读全文
摘要:hbase与传统关系数据库区别hbase适合于非结构化数据存储的数据库。介于Map Entry 和 DB row之间的一种数据存储方式。1. 数据类型: HBase只有简单的字符串类型,它只保存字符串所有的类型都是交给用户自己处理。关系型数据库可以选择类型2. 数据操作: HBase操作只有很简单的...
阅读全文
摘要:参考书籍: Hadoop in action, 吴超沉思录1.Hbase简介 1.面向列的分布式数据库 2. 以HDFS作为文件系统 3. 利用MapReduce处理Hbase中海量数据 4. ZookKeeper作为协调工具 5. sqoop提供Hbase到关系型数据库中数据导入功能 ...
阅读全文
摘要:1.核心 HDFS 分布式文件系统 主从结构,一个namenoe和多个datanode, 分别对应独立的物理机器 1)NameNode是主服务器,管理文件系统的命名空间和客户端对文件的访问操作。NameNode执行文件系统的命名空间操作,比如打开关闭重命名文件或者目录等,它也负责...
阅读全文