摘要: TOGAF是什么 TOGAF(The Open Group Architecture Framework)是当前最为流行的企业架构框架理论之一,它为一个企业或组织对于企业架构的接受、创建、使用和维护提供了一系列辅助方法和工具。基于迭代过程模型的企业架构框架理论,包括了各种最佳实践,以及一系列可重用的 阅读全文
posted @ 2019-04-25 22:10 wwcom123 阅读(1211) 评论(0) 推荐(0) 编辑
摘要: 对之前生产中使用过的MySQL数据库监控指标做个小结。 【QPS指标】 QPS = (Queries2 -Queries1) / (uptime2 - uptime1) 【TPS指标】 事务数TC ≈'com_insert' , 'com_delete' , 'com_update' TPS ≈ ( 阅读全文
posted @ 2019-04-24 21:35 wwcom123 阅读(17243) 评论(0) 推荐(4) 编辑
摘要: 【说明】 percona-toolkit工具包是一组高级的管理mysql的工具包集,可以用来执行各种通过手工执行非常复杂和麻烦的mysql和系统任务,下载和安装都很简单https://www.percona.com。生产环境中使用过其中若干工具,极大的提高效率且解决了遇到的问题,特此整理一下备忘,同 阅读全文
posted @ 2019-04-19 20:16 wwcom123 阅读(829) 评论(0) 推荐(0) 编辑
摘要: 【背景】 之前项目中,项目组计划将现场的MySQL5.5升级到5.7,以提升主从同步性能、使用半同步复制,以及解决一些现场问题等。安排测试组进行验证,测试同事反馈实验室环境中发现有入库失败,我查看了error_log日志,发现有不少如下报错。 【排查与分析】 业务版本前后都是一样的,好端端的mysq 阅读全文
posted @ 2019-04-18 21:11 wwcom123 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 当前读: select...lock in share mode (共享读锁) select...for update update , delete , insert 当前读, 读取的是最新版本, 并且对读取的记录加锁, 阻塞其他事务同时改动相同记录,避免出现安全问题。 例如,假设要update一 阅读全文
posted @ 2019-04-18 00:19 wwcom123 阅读(32931) 评论(0) 推荐(11) 编辑
摘要: 【使用场景】 两个RDD进行join的时候,如果数据量都比较大,那么此时可以sample看下两个RDD中的key分布情况。如果出现数据倾斜,是因为其中某一个RDD中的少数几个key的数据量过大,而另一个RDD中的所有key都分布比较均匀,此时可以考虑采用本解决方案。 【解决方案】 【方案优点】 对于 阅读全文
posted @ 2019-03-26 00:38 wwcom123 阅读(5002) 评论(0) 推荐(0) 编辑
摘要: 【使用场景】 对RDD使用join类操作,或者是在Spark SQL中使用join语句时,而且join操作中的一个RDD或表的数据量比较小(例如几百MB或者1~2GB),比较适用此方案。 【解决方案】 小表join大表转为小表broadcast+map大表实现。具体为: 普通的join是会shuff 阅读全文
posted @ 2019-03-24 00:23 wwcom123 阅读(12165) 评论(0) 推荐(3) 编辑
摘要: 【使用场景】 对RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用group by语句进行分组聚合时,经过sample或日志、界面定位,发生了数据倾斜。 【解决方案】 局部聚合+全局聚合,进行两阶段聚合。具体为: 将原本相同的key通过附加随机前缀的方式,变成多 阅读全文
posted @ 2019-03-22 23:46 wwcom123 阅读(1466) 评论(0) 推荐(0) 编辑
摘要: 【数据倾斜及调优概述】 大数据分布式计算中一个常见的棘手问题——数据倾斜: 在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。比如大部分key对应10条 阅读全文
posted @ 2019-03-21 22:39 wwcom123 阅读(3332) 评论(0) 推荐(0) 编辑
摘要: 【业务场景】 在Spark的统计开发过程中,肯定会遇到类似小维表join大业务表的场景,或者需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时应该使用Spark的广播(Broadcast)功能来提升性能。 【原理说明】 在算子函数中使用到外部变量或两表join时, 阅读全文
posted @ 2019-03-20 23:40 wwcom123 阅读(1198) 评论(0) 推荐(0) 编辑