百里登风

导航

上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 35 下一页

2017年10月20日

Hive UDF作业

摘要: 说到这次作业,看似简单的几个步骤,对于我这样的菜鸟来说可真是一波三折啊。下面来说说这次的步骤和我遇到的问题。 首先准备工作,搭建好hive环境,保证hadoop集群是启动的。这个就不多说了。 第一步:将数据导入Hive中 在hive中,创建 stock 表结构。 hive> create table 阅读全文

posted @ 2017-10-20 16:01 百里登峰 阅读(230) 评论(0) 推荐(0) 编辑

2017年10月19日

Hive性能调优

摘要: 表分为内部表、外部表、分区表,桶表。内部表、外部表、分区表对应的是目录,桶表对应目录下的文件。 阅读全文

posted @ 2017-10-19 22:48 百里登峰 阅读(233) 评论(0) 推荐(0) 编辑

2017年10月17日

hive

摘要: 前面讲到的海量数据存储分析: 为什么需要hive: 思考一下用什么来封装! 传统的数据仓库是通过sql语言存储在传统的关系型数据库里面的,hive的数据仓库是通过hql语言存储在HDFS上的,也就是说hive通过hql语言转换成mapreduce来对hdfs数据进行分析。 hive就是通过hql语言 阅读全文

posted @ 2017-10-17 23:47 百里登峰 阅读(625) 评论(0) 推荐(0) 编辑

hadoop分布式集群的搭建

摘要: 电脑如果是8G内存或者以下建议搭建3节点集群,如果是搭建5节点集群就要增加内存条了。当然实际开发中不会用虚拟机做,一些小公司刚刚起步的时候会采用云服务,因为开始数据量不大。 但随着数据量的增大才会考虑搭建自己的集群,中大型公司肯定会搭建自己的专属集群,毕竟云服务用起来方便,但是还是有很多的局限性。 阅读全文

posted @ 2017-10-17 21:08 百里登峰 阅读(424) 评论(0) 推荐(0) 编辑

2017年10月11日

mapreduce深入剖析5大视频

摘要: 参考代码 TVPlayCount.java TVPlayData.java TVPlayInputFormat.java 先启动3节点集群 与自己在本地搭建的3节点集群的hdfs连接上 在终端显示的运行结果,程序没有错误 查看hdfs上的输出结果 阅读全文

posted @ 2017-10-11 17:08 百里登峰 阅读(368) 评论(0) 推荐(0) 编辑

2017年9月29日

深入理解Apache Flink

摘要: Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapRed 阅读全文

posted @ 2017-09-29 09:56 百里登峰 阅读(734) 评论(0) 推荐(0) 编辑

什么是Apache Flink

摘要: 大数据计算引擎的发展 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影 阅读全文

posted @ 2017-09-29 09:42 百里登峰 阅读(322) 评论(0) 推荐(0) 编辑

2017年9月27日

Hadoop IO

摘要: 1.数据在存储和传输过程中出现数据的不完整性,数据传输量越大出错的概论就越高。 2.通过校验的方法可以知道数据是不完整的。 3.检测的思路是通过校验和,在传输之前计算一个校验和传输之后再计算一个校验和,两个校验和进行比较,如果不同的话就说明数据错误。 4.常见的检测手段:CRC(循环冗余校验):常见 阅读全文

posted @ 2017-09-27 10:03 百里登峰 阅读(181) 评论(0) 推荐(0) 编辑

2017年9月25日

HDFS操作及小文件合并

摘要: 小文件合并是针对文件上传到HDFS之前 这些文件夹里面都是小文件 参考代码 最后一点,分清楚hadoop fs 和dfs的区别 FS涉及可以指向任何文件系统(如本地,HDFS等)的通用文件系统。因此,当您处理不同的文件系统(如本地FS,HFTP FS,S3 FS等)时,可以使用它 dfs非常具体到H 阅读全文

posted @ 2017-09-25 12:00 百里登峰 阅读(16464) 评论(0) 推荐(0) 编辑

2017年9月23日

HDFS分布式文件系统

摘要: hadoop致力于构建在廉价的商用服务器上 多副本存储策略(副本数存多少合适) 常见是数据访问方式:流式数据访问(更适合大数据的访问) 随机数据访问(更适合传统的关系型数据库的访问) 阅读全文

posted @ 2017-09-23 22:06 百里登峰 阅读(244) 评论(0) 推荐(0) 编辑

上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 35 下一页