Fork me on GitHub

随笔分类 -  大数据

摘要:1. Spark 基础 2. Spark Core 3. Spark SQL 4. Spark Streaming 5. Spark 内核机制 6. Spark 性能调优 1. Spark 基础 1.1 Spark 中的相应组件 1.2 Standalone 模式安装 1.2.1 提交应用程序概述 阅读全文
posted @ 2019-06-22 23:38 小a的软件思考 阅读(884) 评论(0) 推荐(0) 编辑
摘要:6. HBase 与 MapReduce 集成 6.1 官方 HBase 与 MapReduce 集成 1. 查看 HBase 的 MapReduce 任务的执行: 2. 环境变量的导入 1. 临时生效,在命令行执行操作: ; ; ; 2. 永久生效,在 配置 ; ; 并在 配置: 3. 运行官方的 阅读全文
posted @ 2019-06-22 17:51 小a的软件思考 阅读(408) 评论(0) 推荐(0) 编辑
摘要:9.企业级调优 9.1 Fetch 抓取 Fetch 抓取:Hive 中对某些情况的查询可以不必使用 MapReduce 计算; 9.2 本地模式 大多数的 Hadoop Job 是需要 Hadoop 提供完整的可扩展性来处理大数据集的。不过,有时 Hive 的输入数据量是非常小的。在这种情况下,为 阅读全文
posted @ 2019-06-21 19:24 小a的软件思考 阅读(282) 评论(0) 推荐(0) 编辑
摘要:7. 函数 7.1 系统内置函数 查看系统自带的函数: 显示自带的函数的用法: 详细显示自带的函数的用法: 7.2 自定义函数 根据用户自定义函数类别,分为以下三种: : 一进一出; : 聚合函数(多进一出),类似于: 等; : 一进多出,类似于: ; 自定义 UDF 的编程步骤: 继承 ; 需要实 阅读全文
posted @ 2019-06-20 18:39 小a的软件思考 阅读(314) 评论(0) 推荐(0) 编辑
摘要:6. Hive 查询 6.1 基本查询(Select ... From) 6.1.1 常用函数 求总行数(count): 求工资的最大值(max): 求工资的最小值(min): 求工资的总和(sum): 求工资的平均值(avg): 6.2 Where 语句 6.2.1 基础 where 查询 查询工 阅读全文
posted @ 2019-06-18 13:58 小a的软件思考 阅读(2415) 评论(0) 推荐(0) 编辑
摘要:3. Hive 数据类型 3.1 基本数据类型 Hive 数据类型 | Java 数据类型 | 长度 | | TINYINT | byte | 1 byte 有符号整数 | SMALINT | short | 2 byte 有符号整数 | INT | int | 4 byte 有符号整数 | BIG 阅读全文
posted @ 2019-06-15 22:36 小a的软件思考 阅读(863) 评论(0) 推荐(0) 编辑
摘要:1. Hive 基本概念 1.1 Hive 介绍 Hive 由 Facebook 开源用于解决海量结构化日志的数据统计; Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 类SQL 查询功能; 本质是:将 HQL 转化成 MapReduce 程序 ; 1 阅读全文
posted @ 2019-06-14 23:09 小a的软件思考 阅读(223) 评论(0) 推荐(0) 编辑
摘要:1.HBase 架构 ============================================ 2. HBase Shell 操作 2.1. 基本操作 进入HBase客户端命令行: 查看帮助命令: 查看当前数据库中有哪些表: 2.2. 表的操作 3. HBase 数据结构 3.1 R 阅读全文
posted @ 2019-06-02 19:00 小a的软件思考 阅读(1271) 评论(0) 推荐(0) 编辑
摘要:1. 概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源; YARN 由ResourceManager,NodeManager, ApplicationMaster 和 Container 等组件构成; 2. YARN 工作机制 2.1 资源调度器 Hadoop 作业调度器主要有三 阅读全文
posted @ 2019-05-31 21:12 小a的软件思考 阅读(276) 评论(0) 推荐(0) 编辑
摘要:1. Reduce Join工作原理 Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 2. Map Join 使用场景:适用于一张表十分小,一张表很大的场景; 在 Map 端缓存多 阅读全文
posted @ 2019-05-31 20:53 小a的软件思考 阅读(374) 评论(0) 推荐(0) 编辑
摘要:1. 概述 Map 方法之后,Reduce 方法之前的数据处理过程称之为 Shuffle。 2. Partition 分区 需求:要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地,不同省份输出到不同文件中(分区)。 2.1 自定义 Partitioner 步骤 2.2 阅读全文
posted @ 2019-05-31 20:19 小a的软件思考 阅读(493) 评论(0) 推荐(0) 编辑
摘要:1. Map 阶段 ============================================= 2. Reduce 阶段 阅读全文
posted @ 2019-05-30 22:14 小a的软件思考 阅读(266) 评论(0) 推荐(0) 编辑
摘要:1. Hadoop 序列化 1.1 自定义Bean对象实现序列化接口 必须实现 Writable 接口; 反序列化时,需要反射调用空参构造函数,所以必须有空参构造; 重写序列化方法; 重写反序列化方法; 注意反序列化的顺序和序列化的顺序完全一致; 要想把结果显示在文件中,需要重写 toString( 阅读全文
posted @ 2019-05-30 22:03 小a的软件思考 阅读(388) 评论(0) 推荐(0) 编辑
摘要:1. MapReduce 定义 MapReduce 是一个 分布式运算程序 的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce 核心功能是将 用户编写的业务逻辑代码和自带默认组件 整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 2. MapR 阅读全文
posted @ 2019-05-29 21:13 小a的软件思考 阅读(943) 评论(0) 推荐(0) 编辑
摘要:1. 工作机制 1. 一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2. DataNode 启动后向 NameNode 注册,通过后,周期性(1小时)的向 NameNode 上报所有的块信息。 3. 阅读全文
posted @ 2019-05-29 12:14 小a的软件思考 阅读(409) 评论(0) 推荐(0) 编辑
摘要:1. NN 和 2NN 工作机制 NameNode 会产生在磁盘中备份元数据的FsImage; 每当元数据有更新或者添加数据时,修改内存中的元数据并追加到Edits中; SecondaryNameNode 专门用于合并 FsImage 和 Edits; 2. Fsimage 和 Edits 解析 查 阅读全文
posted @ 2019-05-29 00:10 小a的软件思考 阅读(1202) 评论(0) 推荐(0) 编辑
摘要:1. HDFS 写数据流程 1. 客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件, NameNode 检查目标文件是否已存在,父目录是否存在; 2. NameNode 返回是否可以上传; 3. 客户端请求NameNode,获取第一个 Block 上传 阅读全文
posted @ 2019-05-28 21:48 小a的软件思考 阅读(926) 评论(0) 推荐(0) 编辑
摘要:1. 文件上传 2. 操作过程中遇到的BUG "File /0526/noodles/testUpload.txt could only be replicated to 0 nodes instead of minReplication (=1). There are 1 datanode(s) 阅读全文
posted @ 2019-05-28 20:25 小a的软件思考 阅读(485) 评论(0) 推荐(0) 编辑
摘要:1. HDFS 客户端环境准备 1.1 "windows 平台搭建 hadoop 2.8.5" 2. 创建Maven工程 2.1 配置 2.2 创建HDFSClient类 2.2.1 异常处理 “Permission denied” 2.3 HDFSClient类(升级版) 参考资料: "Hadoo 阅读全文
posted @ 2019-05-26 20:56 小a的软件思考 阅读(2887) 评论(0) 推荐(0) 编辑
摘要:1. 源码编译原因 Apache Hadoop 官方提供的是32位源码,而Windows为64位; 2. 编译准备工作 Ubuntu(64位) jar 包准备(hadoop 源码, JDK8, maven, ant, protobuf) "hadoop 2.8.5 src.tar.gz" jdk 8 阅读全文
posted @ 2019-05-26 18:31 小a的软件思考 阅读(385) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示