随笔 - 232  文章 - 1  评论 - 24  阅读 - 45万

随笔分类 -  Hadoop

1 2 下一页
Kudu存储实战笔记
摘要:有人会问,为啥要用这个叫啥Kudu的,Kudu是啥? 就像官网所说,Kudu是一个针对Apache hadoop 平台而开发的列式存储管理器,在本菜鸟看来,它是一种介于hdfs与hbase的一种存储。它的优势在于: 1、OLAP工作的快速处理,也就是针对于查询,很快,很牛逼。 2、针对同时运行顺序和 阅读全文
posted @ 2017-12-18 21:12 松伯 阅读(3872) 评论(0) 推荐(1) 编辑
hdfs文件按修改时间下载
摘要:应用于:对于不同用户创建的表目录,进行文件的下载,程序中执行hadoop cat命令 下载文件到本地,随后通过ftp传至目标服务器,并将hdfs文件目录的修改时间存入mysql中。每次修改前将mysql中记录的数据,与本批次下载的HDFS文件路径修改时间对比,如果改变,则决定是否下载文件: 入口: 阅读全文
posted @ 2017-03-06 16:32 松伯 阅读(518) 评论(0) 推荐(0) 编辑
主流大数据技术全体系参数与搭建与后台代码工程框架的编写(百分之70)
摘要:之前查阅源码啊,性能测试啊调优啊。。基本告一段落,项目也接近尾声,那么整理下spark所有配置参数与优化策略,方便以后开发与配置: Spark安装配置与代码框架 spark-default.conf 配置 spark.executor.instance 参数,向Yarn申请创建的资源池实例数 spa 阅读全文
posted @ 2016-12-29 11:26 松伯 阅读(2045) 评论(0) 推荐(0) 编辑
大数据全体系年终总结
摘要:到年底了,想着总结下所有知识点好了~今年应用的知识点还是很多的~ Hadoop生态圈: 1、文件存储当然是选择Hadoop的分布式文件系统HDFS,当然因为硬件的告诉发展,已经出现了内存分布式系统Tachyon,不论是Hadoop的MapReduce,Spark的内存计算、hive的MapReudu 阅读全文
posted @ 2016-12-11 15:54 松伯 阅读(3866) 评论(0) 推荐(0) 编辑
项目中Zookeeper配置参数笔记
摘要:ZooKeeper是以Fast Paxos算法为基础的,Paxos 算法存在活锁的问题,即当有多个proposer交错提交时,有可能互相排斥导致没有一个proposer能提交成功,而Fast Paxos作了一些优化,通过选举产生一个leader (领导者),只有leader才能提交proposer, 阅读全文
posted @ 2016-10-05 20:11 松伯 阅读(3447) 评论(0) 推荐(1) 编辑
Hadoop on Yarn 各组件详细原理
摘要:运行在独立的节点上的ResourceManager和NodeManager一起组成了yarn的核心,构建了整个平台。ApplicationMaster和相应的container一起组成了一个Yarn的应用系统。 ResourceManager提供应用程序的调度,每个应用程序由一个Applicatio 阅读全文
posted @ 2016-06-09 23:51 松伯 阅读(7464) 评论(0) 推荐(0) 编辑
Parquet文件结构笔记
摘要:Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,那么这里就总结下Parquet数据结构到底是什么样的呢? 一个Parquet文件是由一个header以及一个或多个block块组成,以一个fo 阅读全文
posted @ 2016-06-06 22:24 松伯 阅读(8650) 评论(1) 推荐(1) 编辑
MapReduce格式与类型
摘要:MapReduce Types MapReduce是一个简单的数据处理模型,map与reduce的输入和输出类型都为key-value形式的键值对。 一般来讲,map的输入key与输出value类型(K1,V1)不同于map的输出类型(K2,V2).reduce的输入类型比如与map的输出类型保持一 阅读全文
posted @ 2016-06-05 12:34 松伯 阅读(775) 评论(0) 推荐(0) 编辑
Hadoop 2.6 MapReduce运行原理详解
摘要:市面上的hadoop权威指南一类的都是老版本的书籍了,索性学习并翻译了下最新版的Hadoop:The Definitive Guide, 4th Edition与大家共同学习。 我们通过提交jar包,进行MapReduce处理,那么整个运行过程分为五个环节: 1、向client端提交MapReduc 阅读全文
posted @ 2016-06-05 00:48 松伯 阅读(8856) 评论(1) 推荐(0) 编辑
Hadoop SequenceFile数据结构介绍及读写
摘要:在一些应用中,我们需要一种特殊的数据结构来存储数据,并进行读取,这里就分析下为什么用SequenceFile格式文件。 Hadoop SequenceFile Hadoop提供的SequenceFile文件格式提供一对key,value形式的不可变的数据结构。同时,HDFS和MapReduce jo 阅读全文
posted @ 2016-06-04 22:21 松伯 阅读(13993) 评论(0) 推荐(1) 编辑
Hadoop数据读写原理
摘要:数据流 MapReduce作业(job)是客户端执行的单位:它包括输入数据、MapReduce程序和配置信息。Hadoop把输入数据划分成等长的小数据发送到MapReduce,称之为输入分片。Hadoop为每个分片创建一个map任务,由它来运行用户自定义的map函数来分析每个分片中的记录。 这里分片 阅读全文
posted @ 2016-05-28 16:14 松伯 阅读(2242) 评论(0) 推荐(0) 编辑
MapReduce Shuffle原理 与 Spark Shuffle原理
摘要:MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。 为什么MapReduce计算模型需要Shuffle 阅读全文
posted @ 2016-05-25 22:25 松伯 阅读(4577) 评论(0) 推荐(0) 编辑
MapReduce、Hbase接口API实践
摘要:读取hdfs中文件并做处理,取出卡号,通过卡号连接hbase查询出对应客户号,写入redis,因为不用输出,所以不调用context.write方法,整个操作在一个map中便可完成 阅读全文
posted @ 2016-05-25 11:01 松伯 阅读(712) 评论(0) 推荐(0) 编辑
Hadoop的管理目录
摘要:HDFS文件结构 1、NameNode的文件结构,NameNode会创建VERSION、edits、fsimage、fstime文件目录。其中dfs.name.dir属性是一个目录列表,是每个目录的镜像文件。VERSION文件是JAVA属性文件,其中包含运行HDFS的版本信息。包含内容: 其中,na 阅读全文
posted @ 2016-05-15 19:22 松伯 阅读(364) 评论(0) 推荐(0) 编辑
Hadoop I/O操作原理整理
摘要:I/O操作中的数据检查 校验和方式是检查数据完整性的重要方式。一般会通过对比新旧校验和来确定数据情况,如果两者不同则说明数据已经损坏。比如,在传输数据前生成了一个校验和,将数据传输到目的主机时再次计算校验和,如果两次的校验结果不同,则说明数据已经损坏。因为Hadoop采用HDFS作为默认的文件系统, 阅读全文
posted @ 2016-05-14 00:04 松伯 阅读(800) 评论(0) 推荐(0) 编辑
MapReduce编程job概念原理
摘要:在Hadoop中,每个MapReduce任务都被初始化为一个job,每个job又可分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示。Map函数接收一个<key,value>形式的输入,然后同样产生一个<ey,value>形式的中间输出,Hadoop会负责将所有具有相同中间k 阅读全文
posted @ 2016-05-12 22:13 松伯 阅读(3828) 评论(0) 推荐(0) 编辑
MapReduce单表关联学习~
摘要:首先考虑表的自连接,其次是列的设置,最后是结果的整理. 文件内容: 输出结果: 参考:《Hadoop实战》 阅读全文
posted @ 2016-05-12 01:52 松伯 阅读(535) 评论(0) 推荐(0) 编辑
MapReduce排序输出
摘要:hadoop的map是具有输出自动排序功能的~继续学习~ 阅读全文
posted @ 2016-05-11 00:13 松伯 阅读(1558) 评论(0) 推荐(0) 编辑
MapReduce编程实现学习
摘要:MapReduce主要包括两个阶段:一个是Map,一个是Reduce. 每一步都有key-value对作为输入和输出。 Map阶段的key-value对的格式是由输入的格式决定的,如果是默认的TextInputFormat,则每行作为一个记录进程处理,其中key为此行的开头相对文件的起始位置,val 阅读全文
posted @ 2016-04-23 19:40 松伯 阅读(381) 评论(0) 推荐(0) 编辑
Hadoop使用lzo压缩格式
摘要:在hadoop中搭建lzo环境:wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gzexport CFLAGS=-m64./configure -enable-shared -prefix=/usr/local/h... 阅读全文
posted @ 2016-01-07 23:47 松伯 阅读(1759) 评论(0) 推荐(0) 编辑

1 2 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示