摘要: ====HBase API========================================================= ** 配置maven依赖(pom.xml),不需要hadoop依赖包 org.apache.hbase hbase-server 0.98.6-hadoop2 org.apache.hbase hbase-c... 阅读全文
posted @ 2019-04-27 15:01 问题不大1 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 常见的RDBMS:(数据库排行) ** mysql --开源[社区版] 、收费[企业版] --市场占有率高、web领域被广泛使用 ** 2008年被oracle收购 ** mysql主从架构[集群的一种] ** 端口:3306 ** oracle ** oracle集群性能比... 阅读全文
posted @ 2019-04-27 15:00 问题不大1 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 1.将mysql---->hdfs bin/sqoop import \ --connect jdbc:mysql://hadoop:3306/test \ --username root \ --password root \ --table my_user \ --target-dir /user/hive/warehouse/my_user... 阅读全文
posted @ 2019-04-27 14:54 问题不大1 阅读(246) 评论(0) 推荐(0) 编辑
摘要: scala 开发spark可以使用哪些语言: Python开发45% scala 35% java 20% 一、scala的概述 java基础上代码的简化版、功能的加强版 隐式转换 高阶函数 ... 阅读全文
posted @ 2019-04-27 14:51 问题不大1 阅读(847) 评论(0) 推荐(1) 编辑
摘要: 一、scala类 1、 在java中程序的入口是main方法-》定义在class中 在scala中程序的入口是main方法-》定义在object对象中 案例一: class People { //定义属性 var name:String="" val age:Int=20 //定义方法 def sleep():Str... 阅读全文
posted @ 2019-04-27 14:49 问题不大1 阅读(458) 评论(0) 推荐(0) 编辑
摘要: flume 1.flume是什么 2.flume安装 3.案例: 阅读全文
posted @ 2019-04-27 14:41 问题不大1 阅读(811) 评论(0) 推荐(0) 编辑
摘要: kakfa: 1.简介 2.安装 3.kafka与flume整合 阅读全文
posted @ 2019-04-27 14:31 问题不大1 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 面向对象 1.初识类: 2.类属性引用和实例化 属性引用:类型.属性 实例化:类名加括号就是实例化,会自动触发__init__函数的运行,可以用它来为每个实例定制自己的特征 3.类命名空间与对象、实例的命名空间 4.面向对象三大特性 继承: 新建的类可以继承一个或多个父类,父类又可称为基类或超类,新 阅读全文
posted @ 2019-04-26 15:58 问题不大1 阅读(232) 评论(0) 推荐(0) 编辑
摘要: RDD.DataFrame.DataSet的区别和联系 共性: 1)都是spark中得弹性分布式数据集,轻量级 2)都是惰性机制,延迟计算 3)根据内存情况,自动缓存,加快计算速度 4)都有partition分区概念 5)众多相同得算子:map flatmap 等等 区别: 1)RDD不支持SQL 2)DF每一行都是Row类型,不能直接访问字段,必须解析才行 3)DS每一行是... 阅读全文
posted @ 2019-04-26 10:49 问题不大1 阅读(480) 评论(0) 推荐(0) 编辑
摘要: package kafka import java.io.InputStream import java.text.SimpleDateFormat import java.util.{Date, HashMap, Properties} import com.google.gson.JsonObject import org.apache.kafka.clients.producer.{K... 阅读全文
posted @ 2019-04-26 10:33 问题不大1 阅读(172) 评论(0) 推荐(0) 编辑