摘要: 一.了解数据倾斜 数据倾斜的原理: 在执行shuffle操作的时候,按照key,来进行values的数据的输出,拉取和聚合.同一个key的values,一定是分配到一个Reduce task进行处理. 假如多个key对应的values,总共是90万,但是可能某个key对应了88万条数据,key-88 阅读全文
posted @ 2018-12-19 09:32 阿文awen 阅读(3444) 评论(2) 推荐(2) 编辑
摘要: 一、分配资源 最大调节分配资源: 常用的资源调度模式有Spark Standalone和Spark On Yarn。比如说你的每台机器能够给你使用60G内存,10个cpu core,20台机器。那么executor的数量是20。平均每个executor所能分配60G内存和10个cpu core。 1 阅读全文
posted @ 2018-11-22 08:58 阿文awen 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 一、后台nginx环境搭建 web点数据采集后台配置nginx:https://blog.csdn.net/weixin_37490221/article/details/80894827 下载数据源:wget -O lua-nginx-module-0.10.0.tar.gz https://gi 阅读全文
posted @ 2019-05-23 11:03 阿文awen 阅读(3444) 评论(0) 推荐(0) 编辑
摘要: 安装MongoDB #1.配置mongo的yum源sudo vi /etc/yum.repos.d/mongodb-org-3.4.repo [mongodb-org-3.4]name=MongoDB Repositorybaseurl=https://repo.mongodb.org/yum/re 阅读全文
posted @ 2019-01-22 11:00 阿文awen 阅读(959) 评论(0) 推荐(0) 编辑
摘要: 首先介绍各个数据库: Redis: 传统数据库: HBase: Hive: 阅读全文
posted @ 2018-12-26 14:56 阿文awen 阅读(1403) 评论(0) 推荐(0) 编辑
摘要: 详解PreparedStatement 阅读全文
posted @ 2018-12-21 22:26 阿文awen 阅读(2861) 评论(0) 推荐(1) 编辑
摘要: 首先确保集群已经正常使用(搭建集群完毕) 集群时间同步 时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。 第一步 配置小弟同步老大的操作 配置时间同步实操: 1.时间服务器配置(必须 root 用户) 检查 ntp 是否安装 [ro 阅读全文
posted @ 2018-12-21 10:26 阿文awen 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 点进去就是你历经千辛万苦找到的数据库的原理: https://www.cnblogs.com/smallyard/p/5626061.html 阅读全文
posted @ 2018-12-21 10:07 阿文awen 阅读(221) 评论(0) 推荐(0) 编辑
摘要: SpringBoot 一:后台部分 首先创建:app=>controller=>dao(mapper)=>domain=>service=>util 各层文件夹 第一步:在domain层创建javabean对应数据库的表实现序列化 第二步:首先在service层下创建业务的接口,然后在service 阅读全文
posted @ 2018-12-20 22:30 阿文awen 阅读(250) 评论(0) 推荐(0) 编辑
摘要: /** * 使用随机数和扩容表进行join */ JavaPairRDD expandedRDD = userid2InfoRDD.flatMapToPair( new PairFlatMapFunction, String, Row>() { ... 阅读全文
posted @ 2018-12-19 17:51 阿文awen 阅读(423) 评论(0) 推荐(0) 编辑
摘要: /** * sample采样倾斜key单独进行join */ JavaPairRDD sampledRDD = userid2PartAggrInfoRDD.sample(false, 0.1, 9); JavaPairRDD mappedSampledRDD = sample... 阅读全文
posted @ 2018-12-19 17:50 阿文awen 阅读(435) 评论(0) 推荐(0) 编辑