wwcom123

2019年4月25日

摘要： TOGAF是什么 TOGAF（The Open Group Architecture Framework）是当前最为流行的企业架构框架理论之一，它为一个企业或组织对于企业架构的接受、创建、使用和维护提供了一系列辅助方法和工具。基于迭代过程模型的企业架构框架理论，包括了各种最佳实践，以及一系列可重用的阅读全文

posted @ 2019-04-25 22:10 wwcom123 阅读(1320) 评论(0) 推荐(0)

2019年4月24日

【MySQL】常用监控指标及监控方法

摘要：对之前生产中使用过的MySQL数据库监控指标做个小结。【QPS指标】 QPS = (Queries2 -Queries1) / (uptime2 - uptime1) 【TPS指标】事务数TC ≈'com_insert' , 'com_delete' , 'com_update' TPS ≈ ( 阅读全文

posted @ 2019-04-24 21:35 wwcom123 阅读(18090) 评论(0) 推荐(4)

2019年4月19日

【MySQL】percona-toolkit工具包

摘要：【说明】 percona-toolkit工具包是一组高级的管理mysql的工具包集，可以用来执行各种通过手工执行非常复杂和麻烦的mysql和系统任务，下载和安装都很简单https://www.percona.com。生产环境中使用过其中若干工具，极大的提高效率且解决了遇到的问题，特此整理一下备忘，同阅读全文

posted @ 2019-04-19 20:16 wwcom123 阅读(894) 评论(0) 推荐(0)

2019年4月18日

【MySQL】sql_mode引起的一个问题和总结

摘要：【背景】之前项目中，项目组计划将现场的MySQL5.5升级到5.7，以提升主从同步性能、使用半同步复制，以及解决一些现场问题等。安排测试组进行验证，测试同事反馈实验室环境中发现有入库失败，我查看了error_log日志，发现有不少如下报错。【排查与分析】业务版本前后都是一样的，好端端的mysq 阅读全文

posted @ 2019-04-18 21:11 wwcom123 阅读(565) 评论(0) 推荐(0)

【MySQL】当前读、快照读、MVCC

摘要：当前读: select...lock in share mode (共享读锁) select...for update update , delete , insert 当前读, 读取的是最新版本, 并且对读取的记录加锁, 阻塞其他事务同时改动相同记录，避免出现安全问题。例如，假设要update一阅读全文

posted @ 2019-04-18 00:19 wwcom123 阅读(33510) 评论(0) 推荐(11)

2019年3月26日

【Spark调优】大表join大表，少数key导致数据倾斜解决方案

摘要：【使用场景】两个RDD进行join的时候，如果数据量都比较大，那么此时可以sample看下两个RDD中的key分布情况。如果出现数据倾斜，是因为其中某一个RDD中的少数几个key的数据量过大，而另一个RDD中的所有key都分布比较均匀，此时可以考虑采用本解决方案。【解决方案】【方案优点】对于阅读全文

posted @ 2019-03-26 00:38 wwcom123 阅读(5112) 评论(0) 推荐(0)

2019年3月24日

【Spark调优】小表join大表数据倾斜解决方案

摘要：【使用场景】对RDD使用join类操作，或者是在Spark SQL中使用join语句时，而且join操作中的一个RDD或表的数据量比较小（例如几百MB或者1~2GB），比较适用此方案。【解决方案】小表join大表转为小表broadcast+map大表实现。具体为：普通的join是会shuff 阅读全文

posted @ 2019-03-24 00:23 wwcom123 阅读(12426) 评论(0) 推荐(3)

2019年3月22日

【Spark调优】聚合操作数据倾斜解决方案

摘要：【使用场景】对RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用group by语句进行分组聚合时，经过sample或日志、界面定位，发生了数据倾斜。【解决方案】局部聚合+全局聚合，进行两阶段聚合。具体为：将原本相同的key通过附加随机前缀的方式，变成多阅读全文

posted @ 2019-03-22 23:46 wwcom123 阅读(1551) 评论(0) 推荐(0)

2019年3月21日

【Spark调优】数据倾斜及排查

摘要：【数据倾斜及调优概述】大数据分布式计算中一个常见的棘手问题——数据倾斜：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对应10条阅读全文

posted @ 2019-03-21 22:39 wwcom123 阅读(3636) 评论(0) 推荐(0)

2019年3月20日

【Spark调优】Broadcast广播变量

摘要：【业务场景】在Spark的统计开发过程中，肯定会遇到类似小维表join大业务表的场景，或者需要在算子函数中使用外部变量的场景（尤其是大变量，比如100M以上的大集合），那么此时应该使用Spark的广播（Broadcast）功能来提升性能。【原理说明】在算子函数中使用到外部变量或两表join时，阅读全文

posted @ 2019-03-20 23:40 wwcom123 阅读(1269) 评论(0) 推荐(0)

公告