摘要: Spark Streaming 一、大数据实时计算 1.实时计算 Spark Streaming ,其实就是一种spark提供的,对于大数据,进行实时计算的一种框架。他的底层,其实也是基于我们之前讲解的Spark core的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,他的底层的组件或者 阅读全文
posted @ 2019-04-27 20:09 问题不大1 阅读(448) 评论(0) 推荐(0) 编辑
摘要: Spark SQL 一、sparkSQL的特点 1.支持多种数据源:hive RDD Partquet JSON JDBC 2.多种性能优化技术:in-memory columnar storage \ byte-code generation \ cost model 动态评估 3.组件扩展性:对于SQL的语法解析器、分析器、以及优化器,用户都可以自己重新开发,并且动态扩展 Spark sq... 阅读全文
posted @ 2019-04-27 20:08 问题不大1 阅读(646) 评论(0) 推荐(0) 编辑
摘要: SPARK核心编程 一、spark基本工作原理与RDD 1.Spark的基本工作原理 1.分布式(RDD的partition) 2.主要是基于内存(少数情况下数基于磁盘) 3.迭代式计算(RDD->RDD->RDD) 客户端(client):我们在本地编写了spark程序,然后必须在某台能够连接spark的机器上提交spark程序 Spark程序被提交到spark集群上进行运算 spark... 阅读全文
posted @ 2019-04-27 15:02 问题不大1 阅读(438) 评论(0) 推荐(0) 编辑
摘要: ====HBase API========================================================= ** 配置maven依赖(pom.xml),不需要hadoop依赖包 org.apache.hbase hbase-server 0.98.6-hadoop2 org.apache.hbase hbase-c... 阅读全文
posted @ 2019-04-27 15:01 问题不大1 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 常见的RDBMS:(数据库排行) ** mysql --开源[社区版] 、收费[企业版] --市场占有率高、web领域被广泛使用 ** 2008年被oracle收购 ** mysql主从架构[集群的一种] ** 端口:3306 ** oracle ** oracle集群性能比... 阅读全文
posted @ 2019-04-27 15:00 问题不大1 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 1.将mysql---->hdfs bin/sqoop import \ --connect jdbc:mysql://hadoop:3306/test \ --username root \ --password root \ --table my_user \ --target-dir /user/hive/warehouse/my_user... 阅读全文
posted @ 2019-04-27 14:54 问题不大1 阅读(246) 评论(0) 推荐(0) 编辑
摘要: scala 开发spark可以使用哪些语言: Python开发45% scala 35% java 20% 一、scala的概述 java基础上代码的简化版、功能的加强版 隐式转换 高阶函数 ... 阅读全文
posted @ 2019-04-27 14:51 问题不大1 阅读(847) 评论(0) 推荐(1) 编辑
摘要: 一、scala类 1、 在java中程序的入口是main方法-》定义在class中 在scala中程序的入口是main方法-》定义在object对象中 案例一: class People { //定义属性 var name:String="" val age:Int=20 //定义方法 def sleep():Str... 阅读全文
posted @ 2019-04-27 14:49 问题不大1 阅读(458) 评论(0) 推荐(0) 编辑
摘要: flume 1.flume是什么 2.flume安装 3.案例: 阅读全文
posted @ 2019-04-27 14:41 问题不大1 阅读(811) 评论(0) 推荐(0) 编辑
摘要: kakfa: 1.简介 2.安装 3.kafka与flume整合 阅读全文
posted @ 2019-04-27 14:31 问题不大1 阅读(346) 评论(0) 推荐(0) 编辑