大数据 - 随笔分类 - buoge

大数据平台1.0总结和2.0演化路线

摘要：从3月份到现在2个月过去了，整个数据平台从0到1，算是有了一个基本的样子，跌跌撞撞的勉强支撑起运营的一些基本业务，当然这仅仅是开始，接下来总结下自己这段时间的得失，以及下一阶段的演化目标关于产品架构的原则可以查看这里，我分了两篇来写： https://www.cnblogs.com/buoge/p 阅读全文

posted @ 2018-05-26 22:54 buoge 阅读(1768) 评论(0) 推荐(0)

异步处理,Event Souring,事务补偿，实现最终一致性和服务的弹性和批处理

摘要：这段时间一直学习极客时间皓哥的分布式架构，关于异步处理有一些感想用sketch做了一个图，展示上直观一些，和大家交流下阅读全文

posted @ 2018-05-20 11:04 buoge 阅读(576) 评论(0) 推荐(0)

Mysql 上亿级数据导入Hive思路分享

摘要：前提条件：数据库容量上亿级别，索引只有id，没有创建时间索引达到目标：把阿里云RDS Mysql表数据同步到hive中，按照mysql表数据的创建时间日期格式分区，每天一个分区方便查询每天运行crontab定时的增量备份数据，还是依据自增的id 遇到的问题：没法建立创建时间的索引，不能按时阅读全文

posted @ 2018-05-01 00:14 buoge 阅读(3062) 评论(0) 推荐(0)

Hive 查询元数据库获取某个分区的count数

摘要：查询分区的大小 select d.NAME,t.TBL_NAME,p.PART_NAME,prm.PARAM_KEY,prm.PARAM_VALUE from TBLS t left join DBS d on t.DB_ID = d.DB_ID left join PARTITIONS p on 阅读全文

posted @ 2018-04-03 11:13 buoge 阅读(5418) 评论(0) 推荐(0)

读时模式VS写时模式

摘要：在传统数据库里，表的模式是在数据加载时强制确定的。如果在加载时发现数据不符合模式，则被拒绝加载数据。因为数据是在写入数据库是对照模式进行检查，因此这一设计有时被称为“写时模式”（schema on write）。 Hive这种类型的数据处理模式对数据的验证并在不加载数据时进行，而在查询时进行。这称为阅读全文

posted @ 2018-03-26 17:22 buoge 阅读(1779) 评论(0) 推荐(0)

Hadoop3.0 WordCount测试一直Accept 状态，Nodes of the cluster 页面node列表个数为0

摘要：起因是我运行wordcount测试一直卡主，不能执行，一直处于 Accept 状态，等待被执行，刚开始是各种配置yarn参数，以及host配置，后来发现还是不行 hadoop 集群安装完成后，在50070的 HDFS 管理后台能看到，livenode 为2，但是在 YARN 的资源管理后台，htt 阅读全文

posted @ 2018-03-26 16:55 buoge 阅读(514) 评论(0) 推荐(0)

buoge

随笔分类 - 大数据

公告