Fork me on GitHub
摘要: 一.前述 由于Windows安装Mysql非常麻烦,所以分享一篇Linux中对MySQL的搭建,废话不多说,来,come on. 二.步骤 2.1 yum安装 yum install mysql-server -y 2.2 启动MySQL服务 service mysqld start 最好加载到开机 阅读全文
posted @ 2018-01-15 20:25 L先生AI课堂 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 一.前述 Hive中搭建分为三中方式 a)内嵌Derby方式 b)Local方式 c)Remote方式 三种方式归根到底就是元数据的存储位置不一样。 二.具体实现 a)内嵌Derby方式 使用derby存储方式时,运行hive会在当前目录生成一个derby文件和一个metastore_db目录。这种 阅读全文
posted @ 2018-01-15 20:09 L先生AI课堂 阅读(12189) 评论(1) 推荐(0) 编辑
摘要: 一.基本概念 Hive分桶: 1.概念 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储。对于hive中每一个表、分区都可以进一步进行分桶。(可以对列,也可以对表进行分桶)由列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。 2.设置 set hive.enforce.bucketing 阅读全文
posted @ 2018-01-14 21:53 L先生AI课堂 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 一.前述。 完全分布式基于hadoop集群和Zookeeper集群。所以在搭建之前保证hadoop集群和Zookeeper集群可用。可参考本人博客地址 https://www.cnblogs.com/LHWorldBlog/p/8232935.html搭建hadoop集群 二.集群规划。 说明:因为 阅读全文
posted @ 2018-01-12 21:44 L先生AI课堂 阅读(10748) 评论(2) 推荐(0) 编辑
摘要: 一.前述 1.HBase,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。2.利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。 3.主要用来存储非结构化和半结构化的松散数据(列 阅读全文
posted @ 2018-01-12 19:28 L先生AI课堂 阅读(504) 评论(0) 推荐(0) 编辑
摘要: 一.前述 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十 阅读全文
posted @ 2018-01-11 01:09 L先生AI课堂 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 一。前述 Reduce文件会从Mapper任务中拉取很多小文件,小文件内部有序,但是整体是没序的,Reduce会合并小文件,然后套个归并算法,变成一个整体有序的文件。 二。代码 ReduceTask源码: 源码1.1排序比较器,当用户不设置的时候取排序比较器实现,此时如果用户配置排序比较器,用排序比 阅读全文
posted @ 2018-01-10 21:22 L先生AI课堂 阅读(994) 评论(1) 推荐(0) 编辑
摘要: 一。前述 上次讲完MapReduce的输入后,这次开始讲MapReduce的输出。注意MapReduce的原语很重要: “相同”的key为一组,调用一次reduce方法,方法内迭代这一组数据进行计算!!!!! 二。代码 继续看MapTask任务。 解析一。构造OutPut对象: 解析1.1 解析源码 阅读全文
posted @ 2018-01-09 22:59 L先生AI课堂 阅读(822) 评论(0) 推荐(0) 编辑
摘要: 从今天开始陆续分享Linux的知识 因为服务器基本是Linux的 所以Linux不学明白 Shell命令不熟 会让你的办事效率大打折扣。 一。Linux文件系统 Linux文件系统是从Unix结构严进过来的。总结一下Linux顶层虚拟目录及其文件内容。 阅读全文
posted @ 2018-01-09 10:31 L先生AI课堂 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 一。前述 上次分析了客户端源码,这次分析mapper源码让大家对hadoop框架有更清晰的认识 二。代码 自定义代码如下: 继承Mapper源码如下: 解析:我们重新了map方法,所以传进run方法中才能不断执行。 MapperTask源码解析: Container封装了一个脚本命令,通过远程调用启 阅读全文
posted @ 2018-01-09 00:59 L先生AI课堂 阅读(712) 评论(0) 推荐(0) 编辑