Hadoop - 随笔分类 - 松伯

Kudu存储实战笔记

摘要：有人会问，为啥要用这个叫啥Kudu的，Kudu是啥？就像官网所说，Kudu是一个针对Apache hadoop 平台而开发的列式存储管理器,在本菜鸟看来，它是一种介于hdfs与hbase的一种存储。它的优势在于: 1、OLAP工作的快速处理，也就是针对于查询，很快，很牛逼。 2、针对同时运行顺序和阅读全文

posted @ 2017-12-18 21:12 松伯阅读(3872) 评论(0) 推荐(1) 编辑

hdfs文件按修改时间下载

摘要：应用于：对于不同用户创建的表目录，进行文件的下载，程序中执行hadoop cat命令下载文件到本地，随后通过ftp传至目标服务器，并将hdfs文件目录的修改时间存入mysql中。每次修改前将mysql中记录的数据，与本批次下载的HDFS文件路径修改时间对比，如果改变，则决定是否下载文件：入口：阅读全文

posted @ 2017-03-06 16:32 松伯阅读(518) 评论(0) 推荐(0) 编辑

主流大数据技术全体系参数与搭建与后台代码工程框架的编写（百分之70）

摘要：之前查阅源码啊，性能测试啊调优啊。。基本告一段落，项目也接近尾声，那么整理下spark所有配置参数与优化策略，方便以后开发与配置： Spark安装配置与代码框架 spark-default.conf 配置 spark.executor.instance 参数，向Yarn申请创建的资源池实例数 spa 阅读全文

posted @ 2016-12-29 11:26 松伯阅读(2045) 评论(0) 推荐(0) 编辑

大数据全体系年终总结

摘要：到年底了，想着总结下所有知识点好了~今年应用的知识点还是很多的~ Hadoop生态圈： 1、文件存储当然是选择Hadoop的分布式文件系统HDFS，当然因为硬件的告诉发展，已经出现了内存分布式系统Tachyon，不论是Hadoop的MapReduce,Spark的内存计算、hive的MapReudu 阅读全文

posted @ 2016-12-11 15:54 松伯阅读(3866) 评论(0) 推荐(0) 编辑

项目中Zookeeper配置参数笔记

摘要：ZooKeeper是以Fast Paxos算法为基础的，Paxos 算法存在活锁的问题，即当有多个proposer交错提交时，有可能互相排斥导致没有一个proposer能提交成功，而Fast Paxos作了一些优化，通过选举产生一个leader (领导者)，只有leader才能提交proposer，阅读全文

posted @ 2016-10-05 20:11 松伯阅读(3447) 评论(0) 推荐(1) 编辑

Hadoop on Yarn 各组件详细原理

摘要：运行在独立的节点上的ResourceManager和NodeManager一起组成了yarn的核心，构建了整个平台。ApplicationMaster和相应的container一起组成了一个Yarn的应用系统。 ResourceManager提供应用程序的调度，每个应用程序由一个Applicatio 阅读全文

posted @ 2016-06-09 23:51 松伯阅读(7464) 评论(0) 推荐(0) 编辑

Parquet文件结构笔记

摘要：Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，那么这里就总结下Parquet数据结构到底是什么样的呢？一个Parquet文件是由一个header以及一个或多个block块组成，以一个fo 阅读全文

posted @ 2016-06-06 22:24 松伯阅读(8650) 评论(1) 推荐(1) 编辑

MapReduce格式与类型

摘要：MapReduce Types MapReduce是一个简单的数据处理模型，map与reduce的输入和输出类型都为key-value形式的键值对。一般来讲，map的输入key与输出value类型(K1,V1)不同于map的输出类型(K2,V2).reduce的输入类型比如与map的输出类型保持一阅读全文

posted @ 2016-06-05 12:34 松伯阅读(775) 评论(0) 推荐(0) 编辑

Hadoop 2.6 MapReduce运行原理详解

摘要：市面上的hadoop权威指南一类的都是老版本的书籍了，索性学习并翻译了下最新版的Hadoop:The Definitive Guide, 4th Edition与大家共同学习。我们通过提交jar包，进行MapReduce处理，那么整个运行过程分为五个环节： 1、向client端提交MapReduc 阅读全文

posted @ 2016-06-05 00:48 松伯阅读(8856) 评论(1) 推荐(0) 编辑

Hadoop SequenceFile数据结构介绍及读写

摘要：在一些应用中，我们需要一种特殊的数据结构来存储数据，并进行读取，这里就分析下为什么用SequenceFile格式文件。 Hadoop SequenceFile Hadoop提供的SequenceFile文件格式提供一对key,value形式的不可变的数据结构。同时，HDFS和MapReduce jo 阅读全文

posted @ 2016-06-04 22:21 松伯阅读(13993) 评论(0) 推荐(1) 编辑

Hadoop数据读写原理

摘要：数据流 MapReduce作业(job)是客户端执行的单位：它包括输入数据、MapReduce程序和配置信息。Hadoop把输入数据划分成等长的小数据发送到MapReduce，称之为输入分片。Hadoop为每个分片创建一个map任务，由它来运行用户自定义的map函数来分析每个分片中的记录。这里分片阅读全文

posted @ 2016-05-28 16:14 松伯阅读(2242) 评论(0) 推荐(0) 编辑

MapReduce Shuffle原理与 Spark Shuffle原理

摘要：MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle 阅读全文

posted @ 2016-05-25 22:25 松伯阅读(4577) 评论(0) 推荐(0) 编辑

MapReduce、Hbase接口API实践

摘要：读取hdfs中文件并做处理，取出卡号，通过卡号连接hbase查询出对应客户号，写入redis,因为不用输出，所以不调用context.write方法，整个操作在一个map中便可完成阅读全文

posted @ 2016-05-25 11:01 松伯阅读(712) 评论(0) 推荐(0) 编辑

Hadoop的管理目录

摘要：HDFS文件结构 1、NameNode的文件结构,NameNode会创建VERSION、edits、fsimage、fstime文件目录。其中dfs.name.dir属性是一个目录列表，是每个目录的镜像文件。VERSION文件是JAVA属性文件，其中包含运行HDFS的版本信息。包含内容: 其中,na 阅读全文

posted @ 2016-05-15 19:22 松伯阅读(364) 评论(0) 推荐(0) 编辑

Hadoop I/O操作原理整理

摘要：I/O操作中的数据检查校验和方式是检查数据完整性的重要方式。一般会通过对比新旧校验和来确定数据情况，如果两者不同则说明数据已经损坏。比如，在传输数据前生成了一个校验和，将数据传输到目的主机时再次计算校验和，如果两次的校验结果不同，则说明数据已经损坏。因为Hadoop采用HDFS作为默认的文件系统，阅读全文

posted @ 2016-05-14 00:04 松伯阅读(800) 评论(0) 推荐(0) 编辑

MapReduce编程job概念原理

摘要：在Hadoop中，每个MapReduce任务都被初始化为一个job,每个job又可分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示。Map函数接收一个<key,value>形式的输入，然后同样产生一个<ey,value>形式的中间输出，Hadoop会负责将所有具有相同中间k 阅读全文

posted @ 2016-05-12 22:13 松伯阅读(3828) 评论(0) 推荐(0) 编辑

MapReduce单表关联学习~

摘要：首先考虑表的自连接，其次是列的设置，最后是结果的整理. 文件内容：输出结果：参考：《Hadoop实战》阅读全文

posted @ 2016-05-12 01:52 松伯阅读(535) 评论(0) 推荐(0) 编辑

MapReduce排序输出

摘要：hadoop的map是具有输出自动排序功能的~继续学习~ 阅读全文

posted @ 2016-05-11 00:13 松伯阅读(1558) 评论(0) 推荐(0) 编辑

MapReduce编程实现学习

摘要：MapReduce主要包括两个阶段：一个是Map，一个是Reduce. 每一步都有key-value对作为输入和输出。 Map阶段的key-value对的格式是由输入的格式决定的，如果是默认的TextInputFormat,则每行作为一个记录进程处理，其中key为此行的开头相对文件的起始位置，val 阅读全文

posted @ 2016-04-23 19:40 松伯阅读(381) 评论(0) 推荐(0) 编辑

Hadoop使用lzo压缩格式

摘要：在hadoop中搭建lzo环境:wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gzexport CFLAGS=-m64./configure -enable-shared -prefix=/usr/local/h... 阅读全文

posted @ 2016-01-07 23:47 松伯阅读(1759) 评论(0) 推荐(0) 编辑

随笔分类 - Hadoop

搜索

常用链接

随笔分类 (236)

随笔档案 (232)

阅读排行榜

评论排行榜

推荐排行榜

最新评论