摘要: 1.1 分桶表 1.1.1 分桶表概念 分区和分桶可以同时,分桶是更细粒度的分配方式。分区是追求效率,分桶又解决什么问题呢?海量数据的分开存储。 对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对 阅读全文
posted @ 2018-04-08 09:27 项羽齐 阅读(975) 评论(0) 推荐(0) 编辑
摘要: 1.1 使用Flume收集数据落地HDFS 1.1.1 实现方案 log4j和flume整合 配置log4j.properties 配置flume-jt.properties 复制依赖jar文件 进入共享目录 cd /usr/local/src/hadoop/hadoop-2.7.1/share/h 阅读全文
posted @ 2018-04-08 09:12 项羽齐 阅读(2014) 评论(0) 推荐(0) 编辑
摘要: 红色:未了解 黄色:部分了解 绿色:基本了解 1、动态代理 http://www.cnblogs.com/xiangyuqi/p/8658526.html 2、设计模式 3、二叉树,B+树,B-树 http://www.cnblogs.com/xiangyuqi/p/8615245.html 4、s 阅读全文
posted @ 2018-04-04 13:26 项羽齐 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 1 Hive Hadoop在海量离线数据分析时遇到的问题: 开发调试一个复杂的MR程序,不适合要求快速得出结果的业务场景。 Hadoop是由Java开发的,MR天生对java支持最好,对其他语言的使用者不太友好。 需要对Hadoop底层具有一定的了解,并且要记忆大量的API,才能开发出一个优秀MR。 阅读全文
posted @ 2018-04-03 19:06 项羽齐 阅读(454) 评论(0) 推荐(0) 编辑
摘要: external 外部的;表面的;[药] 外用的;外国的;外面的 delimited v. 划定…的界限;限定(delimit的过去分词) adj. 划定界限的;被限定了的 terminated ['tɝmə,net] v. 终止;结束;终结(terminate的过去分词) adj. 终止的;有限的 阅读全文
posted @ 2018-04-03 18:16 项羽齐 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 为什么要使用Hadoop技术?为什么会诞生Hadoop技术? 透过现象看本质:所以应用程序集中4个方面: 分布式、高并发、高可用(互联网架构技术)、海量数据(lucene+solr/es数据存储-索引、数据检索) 海量数据存储PB、EB 海量数据分析Hadoop离线分析,Spark实时分析,Stor 阅读全文
posted @ 2018-04-03 12:29 项羽齐 阅读(186) 评论(0) 推荐(0) 编辑
摘要: flume 日志收集系统 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 当前Flume有两个版本Flume 阅读全文
posted @ 2018-04-02 10:38 项羽齐 阅读(2203) 评论(0) 推荐(0) 编辑
摘要: log4j: 1、传统log4j日志io操作文本文件,文件量有限,io操作会有性能瓶颈,在海量数据高并发下难以支撑。 2、分布式log4j不是支持分布式结构的。一般是单机。日志散落在很多机器上,不方便查看。 3、日志分析pv/uv/vv日志流量分析,从这些日志信息进行规范处理。 阅读全文
posted @ 2018-04-02 10:30 项羽齐 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 目录: 1、hadoop介绍 2、虚拟机配置 3、zookeeper 4、hdfs搭建 大数据解决四大核心问题: 数据的存储(Big Data Storage),海量数据需要处理和分析,但前提是要进行有效的存储。Hadoop的诞生突破了传统数据文件系统的单机模式。HDFS使得数据可以跨越不同的机器与 阅读全文
posted @ 2018-04-01 20:54 项羽齐 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 大数据 大数据:big data,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合, 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 问题: 1、业务系统中打印日志,会影响我们的执行效率,在高并发情况下,对性能影响极大。 所以使用 阅读全文
posted @ 2018-03-29 11:08 项羽齐 阅读(221) 评论(0) 推荐(0) 编辑