随笔档案「2019年4月」 - _Meditation

spark 性能优化数据倾斜故障排除

摘要：版本：V2.0 第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一：最优资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使阅读全文

posted @ 2019-04-29 16:42 _Meditation 阅读(455) 评论(0) 推荐(0)

hbase 性能优化（转载）

摘要：一、服务端调优 1、参数配置 1）、hbase.regionserver.handler.count：该设置决定了处理RPC的线程数量，默认值是10，通常可以调大，比如：150，当请求内容很大（上MB，比如大的put、使用缓存的scans）的时候，如果该值设置过大则会占用过多的内存，导致频繁的GC，阅读全文

posted @ 2019-04-29 15:44 _Meditation 阅读(421) 评论(0) 推荐(0)

hbase 问题整理

摘要：阅读本文可以带着下面问题：1.HBase遇到问题，可以从几方面解决问题？2.HBase个别请求为什么很慢？你认为是什么原因？3.客户端读写请求为什么大量出错？该从哪方面来分析？4.大量服务端exception，一般原因是什么？5.系统越来越慢的原因是什么？6.Hbase数据写进去，为什么会没有了，可阅读全文

posted @ 2019-04-29 15:25 _Meditation 阅读(372) 评论(0) 推荐(0)

hbase读的性能优化

摘要：任何系统都会有各种各样的问题，有些是系统本身设计问题，有些却是使用姿势问题。HBase也一样，在真实生产线上大家或多或少都会遇到很多问题，有些是HBase还需要完善的，有些是我们确实对它了解太少。总结起来，大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大阅读全文

posted @ 2019-04-29 15:21 _Meditation 阅读(193) 评论(0) 推荐(0)

hbase参数配置和说明

摘要：版本：0.94-cdh4.2.1 hbase-site.xml配置 hbase.tmp.dir 本地文件系统tmp目录，一般配置成local模式的设置一下，但是最好还是需要设置一下，因为很多文件都会默认设置成它下面的线上配置 <property> <name>hbase.tmp.dir</name 阅读全文

posted @ 2019-04-29 15:19 _Meditation 阅读(625) 评论(0) 推荐(0)

kafka 客户端 producer 配置参数

摘要：属性描述类型默认值 bootstrap.servers 用于建立与kafka集群的连接，这个list仅仅影响用于初始化的hosts，来发现全部的servers。格式：host1:port1,host2:port2,…，数量尽量不止一个，以防其中一个down了 list acks Server完成 p 阅读全文

posted @ 2019-04-13 15:05 _Meditation 阅读(5812) 评论(0) 推荐(0)

kafka 客户端 consumer 配置参数

摘要：1、Consumer Group 与 topic 订阅每个Consumer 进程都会划归到一个逻辑的Consumer Group中，逻辑的订阅者是Consumer Group。所以一条message可以被多个订阅message 所在的topic的每一个Consumer Group，也就好像是这条m 阅读全文

posted @ 2019-04-13 14:58 _Meditation 阅读(4290) 评论(0) 推荐(0)

spark ML pipeline 学习

摘要：一。pipeline 一个典型的机器学习过程从数据收集开始，要经历多个步骤，才能得到需要的输出。这非常类似于流水线式工作，即通常会包含源数据ETL（抽取、转化、加载），数据预处理，指标提取，模型训练与交叉验证，新数据预测等步骤。在介绍工作流之前，我们先来了解几个重要概念： DataFrame：使用阅读全文

posted @ 2019-04-13 10:38 _Meditation 阅读(303) 评论(0) 推荐(0)

spark streaming

摘要：一。介绍 Spark Streaming最主要的抽象是DStream（Discretized Stream，离散化数据流），表示连续不断的数据流。在内部实现上，Spark Streaming的输入数据按照时间片（如1秒）分成一段一段的DStream，每一段数据转换为Spark中的RDD，并且对DSt 阅读全文

posted @ 2019-04-13 09:38 _Meditation 阅读(469) 评论(0) 推荐(0)

spark DataFrame 读写和保存数据

摘要：一。读写Parquet(DataFrame) Spark SQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源。前面的介绍中，我们已经涉及到了JSON、文本格式的加载，这里不再赘述。这里介绍Parquet，下一节会介绍JDBC数据库连接。 Parquet是一种阅读全文

posted @ 2019-04-13 09:19 _Meditation 阅读(6448) 评论(0) 推荐(0)

spark DataFrame的创建几种方式和存储

摘要：一。从Spark2.0以上版本开始，Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。 SparkSess 阅读全文

posted @ 2019-04-13 09:09 _Meditation 阅读(4863) 评论(0) 推荐(0)

spark DataFrame

摘要：DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。从上面的图中可以看出DataFrame和RDD的区别。RDD是分布式的 Jav 阅读全文

posted @ 2019-04-13 09:06 _Meditation 阅读(195) 评论(0) 推荐(0)

spark MLlib collaborativeFilltering学习

摘要：1 package ML.collaborativeFilltering; 2 3 import org.apache.spark.SparkConf; 4 import org.apache.spark.api.java.JavaDoubleRDD; 5 import org.apache.spark.api.java.JavaPairRDD; 6 import org.apac... 阅读全文

posted @ 2019-04-10 16:23 _Meditation 阅读(266) 评论(0) 推荐(0)

spark MLlib Classification and regression 学习

摘要：二分类：SVMs，logistic regression，decision trees，random forests，gradient-boosted trees，naive Bayes 多分类： logistic regression，decision trees，random forests，阅读全文

posted @ 2019-04-09 18:22 _Meditation 阅读(255) 评论(0) 推荐(0)

spark MLlib BasicStatistics 统计学基础

摘要：一， jar依赖，jsc创建。二。Summary statistics 三。Correlations:相关性三，Stratified sampling：分层抽样四。Hypothesis testing 假设检验五。Random data generation 六。Kernel density 阅读全文

posted @ 2019-04-04 16:13 _Meditation 阅读(333) 评论(0) 推荐(0)

spark MLlib DataType ML中的数据类型

摘要：package ML.DataType; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.mllib.linalg.*; import o... 阅读全文

posted @ 2019-04-04 15:22 _Meditation 阅读(413) 评论(0) 推荐(0)

spark actions 算子

摘要：package action; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import o... 阅读全文

posted @ 2019-04-02 11:35 _Meditation 阅读(138) 评论(0) 推荐(0)

spark Transformations算子

摘要：在java中，RDD分为javaRDDs和javaPairRDDs。下面分两大类来进行。都必须要进行的一步。一。javaRDDs 二。JavaPairRDDs. zip: 最后都要加上 aggregateByKey算子详解 repartitionAndSortWithinPartitions算子阅读全文

posted @ 2019-04-02 10:44 _Meditation 阅读(210) 评论(0) 推荐(0)

Meditation

埋滴忒深

04 2019 档案

公告