2017 年 10月随笔档案 - 百里登峰

sqoop导入导出

摘要：sqoop产生背景什么是sqoop sqoop的优势 sqoop1与sqoop2的比较为什么选择sqoop1 sqoop在hadoop生态体系中的位置 sqoop基本架构 sqoop import原理 sqoop import 详细流程 sqoop export原理 sqoop 安装部署 sqo 阅读全文

posted @ 2017-10-29 17:43 百里登峰阅读(347) 评论(0) 推荐(0) 编辑

HBase性能调优

摘要：Hbase调优 Hbase常见调优参数冷热数据的处理阅读全文

posted @ 2017-10-26 23:49 百里登峰阅读(202) 评论(0) 推荐(0) 编辑

HBase核心知识和应用案例

摘要：Hbase 热点问题？ Hbase 预分区 Hbase Rowkey 设计原则 Hbase 常见避免热点问题方法 Hbase 总结 Hbase 连续查询的Rowkey设计 Hbase 随机查询的Rowkey设计 Hbase columnFamily设计 Hbase 表设计 Hbase 窄表设计 Hb 阅读全文

posted @ 2017-10-23 22:10 百里登峰阅读(900) 评论(0) 推荐(0) 编辑

HBase原理和架构

摘要：HBase是什么 HBase在生态体系中的位置 HBase vs HDFS HBase表的特点 HBase是真正的分布式存储，存储级别达到TB级别，而才传统数据库就不是真正的分布式了，传统数据库在底层，虽然的存储能力很强，一旦达到上亿条数据。读取性能下降得很快。传统数据库按行存储，如果列过多的话，阅读全文

posted @ 2017-10-22 22:29 百里登峰阅读(679) 评论(0) 推荐(0) 编辑

Hive UDF作业

摘要：说到这次作业，看似简单的几个步骤，对于我这样的菜鸟来说可真是一波三折啊。下面来说说这次的步骤和我遇到的问题。首先准备工作，搭建好hive环境，保证hadoop集群是启动的。这个就不多说了。第一步：将数据导入Hive中在hive中，创建 stock 表结构。 hive> create table 阅读全文

posted @ 2017-10-20 16:01 百里登峰阅读(238) 评论(0) 推荐(0) 编辑

Hive性能调优

摘要：表分为内部表、外部表、分区表，桶表。内部表、外部表、分区表对应的是目录，桶表对应目录下的文件。阅读全文

posted @ 2017-10-19 22:48 百里登峰阅读(236) 评论(0) 推荐(0) 编辑

hive

摘要：前面讲到的海量数据存储分析：为什么需要hive: 思考一下用什么来封装！传统的数据仓库是通过sql语言存储在传统的关系型数据库里面的，hive的数据仓库是通过hql语言存储在HDFS上的，也就是说hive通过hql语言转换成mapreduce来对hdfs数据进行分析。 hive就是通过hql语言阅读全文

posted @ 2017-10-17 23:47 百里登峰阅读(636) 评论(0) 推荐(0) 编辑

hadoop分布式集群的搭建

摘要：电脑如果是8G内存或者以下建议搭建3节点集群，如果是搭建5节点集群就要增加内存条了。当然实际开发中不会用虚拟机做，一些小公司刚刚起步的时候会采用云服务，因为开始数据量不大。但随着数据量的增大才会考虑搭建自己的集群，中大型公司肯定会搭建自己的专属集群，毕竟云服务用起来方便，但是还是有很多的局限性。阅读全文

posted @ 2017-10-17 21:08 百里登峰阅读(443) 评论(0) 推荐(0) 编辑

mapreduce深入剖析5大视频

摘要：参考代码 TVPlayCount.java TVPlayData.java TVPlayInputFormat.java 先启动3节点集群与自己在本地搭建的3节点集群的hdfs连接上在终端显示的运行结果，程序没有错误查看hdfs上的输出结果阅读全文

posted @ 2017-10-11 17:08 百里登峰阅读(374) 评论(0) 推荐(0) 编辑

百里登风

导航

公告

统计

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

10 2017 档案