阿文awen - 博客园

[置顶] 最完整的数据倾斜解决方案(spark)

摘要：一.了解数据倾斜数据倾斜的原理: 在执行shuffle操作的时候,按照key,来进行values的数据的输出,拉取和聚合.同一个key的values,一定是分配到一个Reduce task进行处理. 假如多个key对应的values,总共是90万,但是可能某个key对应了88万条数据,key-88 阅读全文

posted @ 2018-12-19 09:32 阿文awen 阅读(3624) 评论(2) 推荐(2)

[置顶] Spark性能调优

摘要：一、分配资源最大调节分配资源：常用的资源调度模式有Spark Standalone和Spark On Yarn。比如说你的每台机器能够给你使用60G内存，10个cpu core，20台机器。那么executor的数量是20。平均每个executor所能分配60G内存和10个cpu core。 1 阅读全文

posted @ 2018-11-22 08:58 阿文awen 阅读(308) 评论(0) 推荐(0)

2019年5月23日

数据采集之js埋点

摘要：一、后台nginx环境搭建 web点数据采集后台配置nginx：https://blog.csdn.net/weixin_37490221/article/details/80894827 下载数据源：wget -O lua-nginx-module-0.10.0.tar.gz https://gi 阅读全文

posted @ 2019-05-23 11:03 阿文awen 阅读(3487) 评论(0) 推荐(0)

2019年1月22日

mongodb安装超级管理普通用户

摘要：安装MongoDB #1.配置mongo的yum源sudo vi /etc/yum.repos.d/mongodb-org-3.4.repo [mongodb-org-3.4]name=MongoDB Repositorybaseurl=https://repo.mongodb.org/yum/re 阅读全文

posted @ 2019-01-22 11:00 阿文awen 阅读(970) 评论(0) 推荐(0)

2018年12月26日

Redis,传统数据库,HBase,Hive区别联系

摘要：首先介绍各个数据库: Redis: 传统数据库: HBase: Hive: 阅读全文

posted @ 2018-12-26 14:56 阿文awen 阅读(1417) 评论(0) 推荐(0)

2018年12月21日

详解PreparedStatement

摘要：详解PreparedStatement 阅读全文

posted @ 2018-12-21 22:26 阿文awen 阅读(2898) 评论(0) 推荐(1)

同步集群时间

摘要：首先确保集群已经正常使用（搭建集群完毕）集群时间同步时间同步的方式：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间。第一步配置小弟同步老大的操作配置时间同步实操： 1.时间服务器配置（必须 root 用户）检查 ntp 是否安装 [ro 阅读全文

posted @ 2018-12-21 10:26 阿文awen 阅读(254) 评论(0) 推荐(0)

MySQL数据库的原理

摘要：点进去就是你历经千辛万苦找到的数据库的原理: https://www.cnblogs.com/smallyard/p/5626061.html 阅读全文

posted @ 2018-12-21 10:07 阿文awen 阅读(237) 评论(0) 推荐(0)

2018年12月20日

SpringBoot

摘要： SpringBoot 一:后台部分首先创建:app=>controller=>dao(mapper)=>domain=>service=>util 各层文件夹第一步:在domain层创建javabean对应数据库的表实现序列化第二步:首先在service层下创建业务的接口,然后在service 阅读全文

posted @ 2018-12-20 22:30 阿文awen 阅读(275) 评论(0) 推荐(0)

2018年12月19日

使用随机数以及扩容表进行join代码

摘要： /** * 使用随机数和扩容表进行join */ JavaPairRDD expandedRDD = userid2InfoRDD.flatMapToPair( new PairFlatMapFunction, String, Row>() { ... 阅读全文

posted @ 2018-12-19 17:51 阿文awen 阅读(435) 评论(0) 推荐(0)

sample采样倾斜key并单独进行join代码

摘要： /** * sample采样倾斜key单独进行join */ JavaPairRDD sampledRDD = userid2PartAggrInfoRDD.sample(false, 0.1, 9); JavaPairRDD mappedSampledRDD = sample... 阅读全文

posted @ 2018-12-19 17:50 阿文awen 阅读(450) 评论(0) 推荐(0)