摘要: 憨 1. impala的核心概念 2. impala的架构原理 3. impala的安装和使用 1. impala介绍 1.1 impala概述 impala是Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互SQL查询功能。 官方测试性能比hive快10到100倍,其s 阅读全文
posted @ 2020-07-28 22:10 起始的地方 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 1、数据的输入 kafka、flume、hdfs、Socket 2、数据的处理 storm(很少)、SparkStreaming、flink 3、数据的输出 kafka、hbase、redis(codis)、mysql 4、springboot 大屏 1、提交任务 2、Driver服务会发送rece 阅读全文
posted @ 2020-07-22 22:35 起始的地方 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 1、spark自定义分区 2、spark中的共享变量 3、spark程序的序列化问题 4、spark中的application/job/stage/task之间的关系 5、spark on yarn原理和机制 6、spark的资源分配方式 1 spark自定义分区 1.1 自定义分区说明 在对rdd 阅读全文
posted @ 2020-07-21 23:01 起始的地方 阅读(129) 评论(0) 推荐(0) 编辑
摘要: Spark基础入门 1、spark的核心概念 2、spark的四大特性 3、spark的整体架构 4、spark的集群安装部署 5、spark的集群的启动和停止 6、spark的集群web管理界面 7、spark-shell Driver 它会执行客户端写好的main方法,它会构建一个名叫Spark 阅读全文
posted @ 2020-07-20 23:54 起始的地方 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 憨 1. scala语言简洁 scala是运行在JVM上的多范式编程语言,同时支持面向对象和面向函数编程 2. scala开发环境搭建 jdk(jvm) scala编译器(scala SDK) scala sdk是scala语言的编译器,要开发scala程序,必须要先安装SDK 到IDEA官网下载对 阅读全文
posted @ 2020-07-19 18:32 起始的地方 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 二次补充 阅读全文
posted @ 2020-07-14 22:51 起始的地方 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 内容: 1. kafka的核心概念 Topic:主题 Partition:分区 分区具体在服务器上面表现为其实就是一个目录 一个主题下面,有多个分区,这些分区会存储到不同的kafka的服务器上面 或者我们可以这样说:其实就是在不同的主机上面建了不同目录 Producer:生产者 Consumer:消 阅读全文
posted @ 2020-07-13 22:55 起始的地方 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 一、数据采集设计与要求 1、 数据采集设计与要求 1)彻底跟业务系统解耦:服务端数据落盘,然后通过flume采集,最后发送到kafka 2)采集架构采用两层,第一层采集层,第二层聚合层 3)采集需要有负载均衡的功能。充分利用资源 4)第一层agent挂掉后,重启采集不能丢失数据 5)第二层某个age 阅读全文
posted @ 2020-07-12 20:30 起始的地方 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 憨 为什么会有消息系统 消息系统起到了一个什么作用呢? 缓存的作用 解耦合 异步处理的效果 流量控制 1. kafka的核心概念 Topic(主题):类似于关系型数据库里面的一张表(只是逻辑上的概念) Partition(分区):跟数据里面的分区含义差不多,是为了提高性能的。 分区具体在服务器上面表 阅读全文
posted @ 2020-07-12 20:29 起始的地方 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 1. 一期工程项目技术架构 1)业务驱动 2)问题驱动 2. 二期工程项目技术架构 项目优化原则: 1)优先从架构和程序进行优化 2)考虑增加集群扩容 做任务为什么不适用kafka? 1)此业务用户量还小 2)数据量小 3)使用kafka大材小用,资源浪费 为什么同时使用db和redis 1)用户成 阅读全文
posted @ 2020-07-11 23:39 起始的地方 阅读(257) 评论(0) 推荐(0) 编辑