Fork me on GitHub

02 2019 档案

摘要:1. 概述 数据层:结构化数据+非结构化数据+日志信息(大部分为结构化) 传输层: flume(采集日志 >存储性框架(如HDFS、kafka、Hive、Hbase))+ sqoop(关系型数据性数据库里数据 >hadoop)+ kafka(将实时日志在线 >sparkstream在数据进行实时处理 阅读全文
posted @ 2019-02-27 22:54 kris12 阅读(2212) 评论(0) 推荐(1) 编辑
摘要:HUE=Hadoop User Experience(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(934) 评论(0) 推荐(0) 编辑
摘要:1. 概述 Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。 是CDH平台首选的PB级大数据实时查询分析引擎。 1.1 优点 1) 基于内存运算,不需要把中间结果写入磁盘,省掉了 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(1511) 评论(0) 推荐(0) 编辑
摘要:1. cloudera manager的概念 简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提 高集群管理的效率。 功能 1) 管理:对集群进行管理 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(3649) 评论(0) 推荐(1) 编辑
摘要:1. 自定义Source说明 实时监控MySQL,从MySQL中获取数据传输到HDFS或者其他存储框架,所以此时需要我们自己实现MySQLSource。 2. 自定义MySQLSource步骤 根据官方说明自定义mysqlsource需要继承AbstractSource类并实现Configurabl 阅读全文
posted @ 2019-02-24 14:32 kris12 阅读(1130) 评论(0) 推荐(0) 编辑
摘要:ETL清洗数据 导Jar包 <dependencies> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>RELEASE</version> </dependency> <dependency 阅读全文
posted @ 2019-02-21 23:29 kris12 阅读(1019) 评论(0) 推荐(0) 编辑
摘要:概述 http://flume.apache.org/FlumeUserGuide.html http://flume.apache.org/ http://archive.apache.org/dist/flume/ Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、 阅读全文
posted @ 2019-02-21 23:29 kris12 阅读(893) 评论(0) 推荐(0) 编辑
摘要:一、Hadoop压缩配置 MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否 为了支 阅读全文
posted @ 2019-02-20 00:40 kris12 阅读(677) 评论(0) 推荐(0) 编辑
摘要:Hive中执行SQL语句时,出现类似于“Display all 469 possibilities? (y or n)”的错误, 根本原因是因为SQL语句中存在tab键导致,tab键在linux系统中是有特殊含义的。 查询 1. 基本查询 desc formatted stu_buck; desc 阅读全文
posted @ 2019-02-16 13:25 kris12 阅读(888) 评论(0) 推荐(0) 编辑
摘要:1. Hive数据类型 基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOL 阅读全文
posted @ 2019-02-16 13:24 kris12 阅读(510) 评论(0) 推荐(0) 编辑
摘要:什么是shell Shell是命令解释器,用于解释用户对操作系统的操作; Shell有很多:cat/etc/shells CentOS7默认使用Shell是bash shell是一个命令行解释器,它接收应用程序/ 用户命令,然后调用操作系统内核;功能强大的编程语言; Linux的启动过程 BIOS( 阅读全文
posted @ 2019-02-14 21:20 kris12 阅读(422) 评论(0) 推荐(1) 编辑
摘要:Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是Ma 阅读全文
posted @ 2019-02-13 23:44 kris12 阅读(879) 评论(0) 推荐(0) 编辑
摘要:1. HDFS-HA 在分布式文件系统 HDFS 中,NameNode 是 master 角色,当 NameNode 出现故障后,整个 HDFS 将不可用,所以保证 NameNode 的稳定性至关重要。在 Hadoop1.x 版本中,HDFS 只支持一个 NameNode,为了保证稳定性,只能靠 S 阅读全文
posted @ 2019-02-13 22:46 kris12 阅读(981) 评论(0) 推荐(2) 编辑
摘要:泛型 泛型:对后续所有操作的类型做约束,对后续操作起作用,对之前的不起作用; 对类型进行约束; 父 > 子,从范围上,父范围小,子范围大;把范围小的给范围大的, JDK1.5改写了集合框架中的全部接口和类,为这些接口、类增加了“类型形参”,这个类型形参将在声明变量、创建对象时确定,即传入实际的类型, 阅读全文
posted @ 2019-02-07 20:06 kris12 阅读(214) 评论(0) 推荐(0) 编辑
摘要:查看不同MyBatis版本整合Spring时使用的适配包; 下载整合适配包 https://github.com/mybatis/spring/releases 官方整合示例,jpetstore https://github.com/mybatis/jpetstore-6 1. 搭建环境 创建一个动 阅读全文
posted @ 2019-02-07 12:03 kris12 阅读(231) 评论(0) 推荐(0) 编辑

levels of contents
点击右上角即可分享
微信分享提示