起始的地方 - 博客园

2020年7月28日

摘要：憨 1. impala的核心概念 2. impala的架构原理 3. impala的安装和使用 1. impala介绍 1.1 impala概述 impala是Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互SQL查询功能。官方测试性能比hive快10到100倍，其s 阅读全文

posted @ 2020-07-28 22:10 起始的地方阅读(266) 评论(0) 推荐(0)

2020年7月22日

（一）SparkStreaming

摘要： 1、数据的输入 kafka、flume、hdfs、Socket 2、数据的处理 storm（很少）、SparkStreaming、flink 3、数据的输出 kafka、hbase、redis（codis）、mysql 4、springboot 大屏 1、提交任务 2、Driver服务会发送rece 阅读全文

posted @ 2020-07-22 22:35 起始的地方阅读(172) 评论(0) 推荐(0)

2020年7月21日

（二）Spark

摘要： 1、spark自定义分区 2、spark中的共享变量 3、spark程序的序列化问题 4、spark中的application/job/stage/task之间的关系 5、spark on yarn原理和机制 6、spark的资源分配方式 1 spark自定义分区 1.1 自定义分区说明在对rdd 阅读全文

posted @ 2020-07-21 23:01 起始的地方阅读(146) 评论(0) 推荐(0)

2020年7月20日

（一）Spark

摘要： Spark基础入门 1、spark的核心概念 2、spark的四大特性 3、spark的整体架构 4、spark的集群安装部署 5、spark的集群的启动和停止 6、spark的集群web管理界面 7、spark-shell Driver 它会执行客户端写好的main方法，它会构建一个名叫Spark 阅读全文

posted @ 2020-07-20 23:54 起始的地方阅读(194) 评论(0) 推荐(0)

2020年7月19日

（一）Scala

摘要：憨 1. scala语言简洁 scala是运行在JVM上的多范式编程语言，同时支持面向对象和面向函数编程 2. scala开发环境搭建 jdk（jvm） scala编译器（scala SDK） scala sdk是scala语言的编译器，要开发scala程序，必须要先安装SDK 到IDEA官网下载对阅读全文

posted @ 2020-07-19 18:32 起始的地方阅读(221) 评论(0) 推荐(0)

2020年7月14日

（三）Kafka

摘要：二次补充阅读全文

posted @ 2020-07-14 22:51 起始的地方阅读(164) 评论(0) 推荐(0)

2020年7月13日

（二）kafka

摘要：内容： 1. kafka的核心概念 Topic：主题 Partition：分区分区具体在服务器上面表现为其实就是一个目录一个主题下面，有多个分区，这些分区会存储到不同的kafka的服务器上面或者我们可以这样说：其实就是在不同的主机上面建了不同目录 Producer：生产者 Consumer：消阅读全文

posted @ 2020-07-13 22:55 起始的地方阅读(164) 评论(0) 推荐(0)

2020年7月12日

四、（项目架构的过去与现在）亿级用户行为之大数据实时分析

摘要：一、数据采集设计与要求 1、数据采集设计与要求 1）彻底跟业务系统解耦：服务端数据落盘，然后通过flume采集，最后发送到kafka 2）采集架构采用两层，第一层采集层，第二层聚合层 3）采集需要有负载均衡的功能。充分利用资源 4）第一层agent挂掉后，重启采集不能丢失数据 5）第二层某个age 阅读全文

posted @ 2020-07-12 20:30 起始的地方阅读(463) 评论(0) 推荐(0)

（一）kafka

摘要：憨为什么会有消息系统消息系统起到了一个什么作用呢？缓存的作用解耦合异步处理的效果流量控制 1. kafka的核心概念 Topic（主题）：类似于关系型数据库里面的一张表（只是逻辑上的概念） Partition（分区）：跟数据里面的分区含义差不多，是为了提高性能的。分区具体在服务器上面表阅读全文

posted @ 2020-07-12 20:29 起始的地方阅读(147) 评论(0) 推荐(0)

2020年7月11日

三、（项目架构的过去与现在）亿级用户行为之大数据实时分析

摘要： 1. 一期工程项目技术架构 1）业务驱动 2）问题驱动 2. 二期工程项目技术架构项目优化原则： 1）优先从架构和程序进行优化 2）考虑增加集群扩容做任务为什么不适用kafka？ 1）此业务用户量还小 2）数据量小 3）使用kafka大材小用，资源浪费为什么同时使用db和redis 1）用户成阅读全文

posted @ 2020-07-11 23:39 起始的地方阅读(264) 评论(0) 推荐(0)

说不上别说谎

公告