摘要: Scala面向对象 三大特征:封装、继承、多态 1、类的定义和使用 2、构造器 3、继承 extends 4、抽象类 5、伴生类和伴生对象 如果有一个Class,还有一个与Class同名的Object 那么就称这个Object是Class的伴生对象,Class是Object的伴生类,其中伴生对象是一 阅读全文
posted @ 2019-04-08 22:05 技术小白丁 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 一、函数的定义(def) 二、scala中的循环表达式 1)to 1 to 10 :表示1到10,包括1和10,也可以写作:1.to(10)。 默认步长为1,可以手动指定步长 2)Range Range也表示一段范围,但是与to的区别是:to是左闭右闭,而Range是左闭右开,也可以手动指定步长 3 阅读全文
posted @ 2019-04-08 22:01 技术小白丁 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 基础语法 1)注意点 1)区分大小写 - Scala是大小写敏感的,这意味着标识Hello 和 hello在Scala中会有不同的含义。 2)类名 - 对于所有的类名的第一个字母要大写。 3)方法名称 - 所有的方法名称的第一个字母用小写。 4)程序文件名 - 程序文件的名称应该与对象名称完全匹配。 阅读全文
posted @ 2019-04-08 21:59 技术小白丁 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 一、Scala简介 Scala 是 Scalable Language 的简写,是一门多范式的编程语言,设计初衷是实现可伸缩的语言并集成面向对象编程和函数式编程的各种特性。 二、Scala 环境搭建 1)、JDK安装 2)、下载scala二进制包 http://www.scala-lang.org/ 阅读全文
posted @ 2019-04-08 21:56 技术小白丁 阅读(216) 评论(0) 推荐(0) 编辑
摘要: Hive——连接方式 一.CLI连接 直接通过CLI连接hive,进行相关hive sql 操作。 直接使用 hive-1.1.0-cdh5.7.0/bin/hive 命令即可 二.HiveServer2/beeline HiveServer:指在hive服务器上启动一个服务(server),然后各 阅读全文
posted @ 2019-04-08 21:54 技术小白丁 阅读(2906) 评论(0) 推荐(0) 编辑
摘要: Hive——join的使用 hive中常用的join有:inner join、left join 、right join 、full join、left semi join、cross join、mulitiple 在hive中建立两张表,用于测试: 一、基本join使用 1、内关联([inner] 阅读全文
posted @ 2019-04-08 21:52 技术小白丁 阅读(22313) 评论(0) 推荐(1) 编辑
摘要: Hive——元数据表含义 1、VERSION -- 查询版本信息 2、DBS -- 存储Hive中所有数据库的基本信息 3、DATABASE_PARAMS --该表存储数据库的相关参数,在CREATE DATABASE时候用 4、TBLS --该表中存储Hive表、视图、索引表的基本信息 5、TAB 阅读全文
posted @ 2019-04-08 21:49 技术小白丁 阅读(1950) 评论(0) 推荐(0) 编辑
摘要: Hive——基本DML语句 DML:Data Manipulation Language(数据操作语言,与关系型数据库相似) 官方手册:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML 一、加载数据到hive表中 阅读全文
posted @ 2019-04-08 21:48 技术小白丁 阅读(522) 评论(0) 推荐(0) 编辑
摘要: Hive——基本DDL语句 DDL:Data Definition Language(数据定义语言,与关系型数据库相似) 官方手册:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL HiveQL DDL包括以下内容 阅读全文
posted @ 2019-04-08 16:14 技术小白丁 阅读(1633) 评论(0) 推荐(0) 编辑
摘要: Hive——环境搭建 相关hadoop和mysql环境已经搭建好。我博客中也有相关搭建的博客。 一、下载Hive并解压到指定目录(本次使用版本hive-1.1.0-cdh5.7.0,下载地址:http://archive.cloudera.com/cdh5/cdh/5/) 二、Hive配置:参考官网 阅读全文
posted @ 2019-04-08 15:44 技术小白丁 阅读(1430) 评论(0) 推荐(0) 编辑
摘要: Hive——简介 Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能.可以将 SQL 语句转换为 MapReduce 任务进行运行, 阅读全文
posted @ 2019-04-08 15:39 技术小白丁 阅读(888) 评论(0) 推荐(0) 编辑
摘要: hadoop 完全分布式环境搭建 1、虚拟机角色分配: 每台机器配置好hostname,hosts:/etc/hostname 中配置好hostname /etc/hosts 中配置好hosts: 2、sskey免登录设置 1)ssh-keygen -t rsa (会在.ssh目录生成公钥和私钥,每 阅读全文
posted @ 2019-04-08 15:37 技术小白丁 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 一、Combiner 在MapReduce编程模型中,在Mapper和Reducer之间有一个非常重要的组件,主要用于解决MR性能瓶颈问题 combiner其实属于优化方案,由于带宽限制,应该尽量map和reduce之间的数据传输数量。它在Map端把同一个key的键值对合并在一起并计算,计算规则和r 阅读全文
posted @ 2019-04-08 15:33 技术小白丁 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 一、代码实现: 二、运行结果: 调用: 输入的文件内容: 输出的结果: 阅读全文
posted @ 2019-04-08 15:31 技术小白丁 阅读(924) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce1.x架构 1)jobTracker:JT 作业的管理者 将作业分解成一堆任务:Task(MapTask和ReduceTask) 将任务分派给TaskTracker(TT)运行 作业监控、容错处理(task作业挂了,重启task的机制) 在一定的时间间隔内,JT没有收到TT的心 阅读全文
posted @ 2019-04-08 15:29 技术小白丁 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 执行步骤:1)准备Map处理的输入数据 2)Mapper处理 3)Shuffle 4)Reduce处理 5)结果输出 三、mapreduce核心概念: 1)split:交由MapReduce作业来处理的数据块,是MapReduce最小的计算单元。 HDFS:blocksize 是HDFS中最小的存储 阅读全文
posted @ 2019-04-08 15:28 技术小白丁 阅读(712) 评论(0) 推荐(0) 编辑