随笔分类 - 大数据
摘要:1. vi/vim一般模式语法 功能描述yy 复制光标当前一行y数字y 复制一段(从第几行到第几行)p 箭头移动到目的行粘贴u 撤销上一步dd 删除光标当前行d数字d 删除光标(含)后多少行x 删除一个字母,相当于delX 删除一个字母,相当于Backspaceyw 复制一个词dw 删除一个词shi
阅读全文
摘要:1、数据采集框架 2、数据存储框架 3、分布式资源管理调度框架 4、数据计算框架 5、数据分析技术框架 6、任务调度框架 7、基础框架 8、数据检索框架 9、集群安装管理框架 总结 从这张图谱可以看到,大数据技术体系可以归纳总结为数据分析应用技术、数据管理技术、基础技术、数据安全流通技术四大方向,每
阅读全文
摘要:大数据总结 企业构建大数据技术体系时,会在一级架构的范围内,结合业务需要和未来规划目标,选择部分技术组件进行落地,下图罗列了各个一级架构下的核心技术组件。构建初期,一般会通过CDH或HDP的产品套件,来完成数据采集(Sqoop、Flume)、数据存储(HDFS)、资源调度(Yarn)、分布式计算引擎
阅读全文
摘要:Hadoop大数据架构及关键组件1. Hadoop生态系统1.1 架构大数据生态的主要组件及其关系大数据生态大数据架构1. HDFS(Hadoop分布式文件系统):2. MapReduce(分布式计算框架):3. HBase(分布式列存数据库):4. ZooKeeper(分布式协作服务):5. Hi
阅读全文
摘要:图例1 图例2 图例3 图例4 图例5 图例6 图例7 图例8 图例9 图例10 图例11 图例12 图例13 图例14 图例15 图例16 图例17 图例18 图例19 图例20 图例21 图例22 图例23 图例24 图例25 图例26 图例27 图例28 图例29 图例30 图例31 图例32
阅读全文
摘要:架构图1 架构图2 架构图3 架构图4 架构图5 架构图6 架构图7 架构图8 架构图9 架构图10 架构图11 架构图12 架构图13 架构图14 架构图15 架构图16 架构图17 架构图18 架构图19 架构图20 架构图21 架构图22 架构图23 架构图24 架构图25 架构图26 架构图
阅读全文
摘要:shell定时上传linux日志信息到hdfs 从标题可以分析出来,我们要使用到shell,还要推送日志信息到hdfs上。 定义出上传的路径和临时路径,并配置好上传的log日志信息。这里我使用了上一节配置的nginx的error.log #上传log日志文件的存放路径 /bigdata/logs/u
阅读全文
摘要:HDFS shell API HDFS作为大数据的文件系统,可以放置数据文件,列举几个常用的shell脚本命令,用法和linux中的基本类似,不过这个是hadoop里的一套,所以我们要用hadoop fs开头具体可以使用hadoop fs --help 查看帮助信息 例如:lshadoop fs -
阅读全文
摘要:Hadoop概述信息 hadoop 有三大组成部分,HDFS(分布式文件存储系统)、YARN(资源管理器)、MAPREDUCE(分布式计算框架) ,下边我们来简单介绍一下 HDFS 分布式文件存储系统 HDFS分布式文件系统,是由Google的GFS谷歌文件系统开源出来,其存储模型是有主从结构的,可
阅读全文
摘要:1、Maxwell 简介 Maxwell 是一个能实时读取 MySQL 二进制日志文件binlog,并生成 Json格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、维
阅读全文
摘要:1. 概述 Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具导入数据:将MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据:从Hadoop的文件系统中导出数据到关系数据库 2. Sqoop的工作机制 将导入和导出的命
阅读全文
摘要:1. 前言 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 2. Flume基本介绍 1. 概述 Flume是一个分布
阅读全文
摘要:1、DolphinScheduler简介 Apache DolphinScheduler](https://dolphinscheduler.apache.org/)(目前处在孵化阶段)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调
阅读全文
摘要:1、DataX 基本介绍 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具,致力于实现包括:关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase、ODPS、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的
阅读全文
摘要:1.工作流调度器 1.为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可
阅读全文
摘要:Hive是基于Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储支持,也可以说hive就是一个MapReduce的客户端 Hive与数据库的区别 Hive的优缺点
阅读全文
摘要:集成分析 HBase表中的数据最终都是存储在HDFS上,HBase天生的支持MR的操作,我们可以通过MR直接处理HBase表中的数据,并且MR可以将处理后的结果直接存储到HBase表中。 参考地址:http://hbase.apache.org/book.html#mapreduce 1 实现方式一
阅读全文
摘要:HBase表热点 1 什么是热点 检索habse的记录首先要通过row key来定位数据行。 当大量的client访问hbase集群的一个或少数几个节点,造成少数region server的读/写请求过多、负载过大,而其他region server负载却很小,就造成了“热点”现象。 2 热点的解决方
阅读全文
摘要:HBase是一个分布式的NoSql数据库,在实际工作当中,我们一般都可以通过JavaAPI来进行各种数据的操作,包括创建表,以及数据的增删改查等等 1 创建maven工程 讲如下内容作为maven工程中pom.xml的repositories的内容 自动导包 <?xml version="1.0"
阅读全文
摘要:1.1 准备安装包 下载安装包并上传到hadoop01服务器 安装包下载地址:https://www.apache.org/dyn/closer.lua/hbase/2.2.6/hbase-2.2.6-bin.tar.gz 将安装包上传到node01服务器/bigdata/softwares路径下,
阅读全文