2019 年 11月 29 日随笔档案 - 花未全开*月未圆

2019年11月29日

摘要：直接贴面试题：怎么保证数据 kafka 里的数据安全？答：生产者数据的不丢失kafka 的 ack 机制：在 kafka 发送数据的时候，每次发送消息都会有一个确认反馈机制，确保消息正常的能够被收到。如果是同步模式：ack 机制能够保证数据的不丢失，如果 ack 设置为 0，风险很大，一般阅读全文

posted @ 2019-11-29 20:01 花未全开*月未圆阅读(1769) 评论(0) 推荐(0) 编辑

Hbase与hive集成与对比

摘要： HBase与Hive的对比 1．Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。 (2) 用于数据分析、清洗 Hive适用于离线的数据分析和清洗，延迟较高。 (3) 基于HDFS、MapReduce Hive 阅读全文

posted @ 2019-11-29 19:53 花未全开*月未圆阅读(237) 评论(0) 推荐(0) 编辑

HBaseAPI

摘要：环境准备新建项目后在pom.xml中添加依赖： <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.3.1</version> </dependency> 阅读全文

posted @ 2019-11-29 19:51 花未全开*月未圆阅读(147) 评论(0) 推荐(0) 编辑

Hbase优化：（待重点研究）

摘要：一、服务端调优 1、参数配置 1）、hbase.regionserver.handler.count：该设置决定了处理RPC的线程数量，默认值是10，通常可以调大，比如：150，当请求内容很大（上MB，比如大的put、使用缓存的scans）的时候，如果该值设置过大则会占用过多的内存，导致频繁的GC，阅读全文

posted @ 2019-11-29 19:48 花未全开*月未圆阅读(243) 评论(0) 推荐(0) 编辑

hbase表的高性能设计

摘要：第7章 HBase优化 7.1 高可用在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。阅读全文

posted @ 2019-11-29 19:36 花未全开*月未圆阅读(277) 评论(0) 推荐(0) 编辑

hbase运行原理

摘要： HBase特点 1）海量存储 Hbase适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性，才为海量数据的存储提供了便利。 2）列式存储这里的列式存储其实说的是列族存储，Hbase 阅读全文

posted @ 2019-11-29 19:32 花未全开*月未圆阅读(236) 评论(0) 推荐(0) 编辑

Hive架构与工作原理

摘要：组成及作用：用户接口：ClientCLI（hive shell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）元数据：Metastore 元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录阅读全文

posted @ 2019-11-29 19:15 花未全开*月未圆阅读(243) 评论(0) 推荐(0) 编辑

hive 调优总结

摘要： hive调优是比较大的专题，需要结合实际的业务，数据的类型，分布，质量状况等来实际的考虑如何进行系统性的优化，hive底层是mapreduce，所以hadoop调优也是hive调优的一个基础,hvie调优可以分为几个模块进行考虑，数据的压缩与存储，sql的优化，hive参数的优化，解决数据的倾斜等。阅读全文

posted @ 2019-11-29 19:10 花未全开*月未圆阅读(922) 评论(0) 推荐(0) 编辑

spark——故障排除

摘要：故障排除一：控制reduce端缓冲大小以避免OOM 在Shuffle过程，reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取，而是map端写一点数据，reduce端task就会拉取一小部分数据，然后立即进行后面的聚合、算子函数的使用等操作。 reduce端task能够拉取阅读全文

posted @ 2019-11-29 18:53 花未全开*月未圆阅读(302) 评论(0) 推荐(0) 编辑

spark调优——数据倾斜

摘要： Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如，reduce点一共要处理100万条数据，第一个和第二个task分别被分配到了1万条数据，计算5分钟内完成，第三个task分配到了98万数据，此阅读全文

posted @ 2019-11-29 18:48 花未全开*月未圆阅读(190) 评论(0) 推荐(0) 编辑

spark调优——JVM调优

摘要：对于JVM调优，首先应该明确，(major)full gc/minor gc，都会导致JVM的工作线程停止工作，即stop the world。 JVM调优一：降低cache操作的内存占比 1. 静态内存管理机制根据Spark静态内存管理机制，堆内存被划分为了两块，Storage和Executio 阅读全文

posted @ 2019-11-29 18:42 花未全开*月未圆阅读(347) 评论(0) 推荐(0) 编辑

spark调优——Shuffle调优

摘要：在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况，使得性能非常低下，通过调节map端缓冲的大小，可以避免频繁的磁盘IO操作，进而提升Spark任务的整体性能。 map端缓冲的默认阅读全文

posted @ 2019-11-29 18:40 花未全开*月未圆阅读(309) 评论(0) 推荐(0) 编辑

spark调优——算子调优

摘要：算子调优一：mapPartitions 普通的map算子对RDD中的每一个元素进行操作，而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子，假设一个partition有1万条数据，那么map算子中的function要执行1万次，也就是对每个元素进行操作。如果是ma 阅读全文

posted @ 2019-11-29 18:35 花未全开*月未圆阅读(569) 评论(0) 推荐(0) 编辑

Spark常规性能调优

摘要： 1.1.1 常规性能调优一：最优资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定，标准的Spark任务提交脚本如代阅读全文

posted @ 2019-11-29 18:30 花未全开*月未圆阅读(273) 评论(0) 推荐(0) 编辑

Spark：性能调优

摘要：资源参数调优了解完了Spark作业运行的基本原理之后，对资源相关的参数就容易理解了。所谓的Spark资源参数调优，其实主要就是对Spark运行过程中各个使用资源的地方，通过调节各种参数，来优化资源使用的效率，从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数，每个参数都对应着阅读全文

posted @ 2019-11-29 18:12 花未全开*月未圆阅读(222) 评论(0) 推荐(0) 编辑

SparkStreaming 性能、稳定、容错与语义

摘要：怎样提高Spark Streaming的性能 1、创建多个接收器待定：： 2、调节每一个batch interval的数据块的数量，其实就是调整上面第二个问题中提到的配置spark.streaming.blockInterva 待定：： 3、调整Recevier每秒接收数据的速率待定：： 4、通阅读全文

posted @ 2019-11-29 18:06 花未全开*月未圆阅读(462) 评论(0) 推荐(0) 编辑

SparkStreaming运行原理

摘要： Spark Streaming应用也是Spark应用，Spark Streaming生成的DStream最终也是会转化成RDD，然后进行RDD的计算，所以Spark Streaming最终的计算是RDD的计算，那么Spark Streaming的原理当然也包含了Spark应用通用的原理。Spark 阅读全文

posted @ 2019-11-29 17:59 花未全开*月未圆阅读(697) 评论(0) 推荐(0) 编辑

Spark SQL中的Catalyst 的工作机制

摘要： Spark SQL中的Catalyst 的工作机制答：不管是SQL、Hive SQL还是DataFrame、Dataset触发Action Job的时候，都会经过解析变成unresolved的逻辑执行计划，然后利用元数据信息对unresolved的逻辑执行计算进行分析，得到逻辑执行计划，然后对逻辑阅读全文

posted @ 2019-11-29 17:46 花未全开*月未圆阅读(471) 评论(0) 推荐(0) 编辑

spark延迟调度与动态资源管理

摘要： Spark中的延迟调度 Spark的Task的调度过程有五个本地性级别：PROCESS_NODE、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY。在理想的状态下，我们肯定是想所有的Task的调度都是PROCESS_NODE级别的，这样的话所有的Task都是在数据所在的机器上进行计阅读全文

posted @ 2019-11-29 17:11 花未全开*月未圆阅读(487) 评论(0) 推荐(0) 编辑

sparkjob的提交流程

摘要：在使用spark-submit提交一个Spark应用之后，Driver程序会向集群申请一定的资源来启动东若干个Executors用来计算，当这些Executors启动后，它们会向Driver端的SchedulerBackend进行注册，告诉Driver端整个每一个Executor的资源情况。那么在阅读全文

posted @ 2019-11-29 17:09 花未全开*月未圆阅读(734) 评论(1) 推荐(0) 编辑

花未全开*月未圆

谦虚谨慎，戒骄戒躁，稳中求进，悟道行之

公告