随笔分类 - 大数据
摘要:从3月份到现在2个月过去了,整个数据平台从0到1,算是有了一个基本的样子,跌跌撞撞的勉强支撑起运营的一些基本业务,当然这仅仅是开始,接下来总结下自己这段时间的得失,以及下一阶段的演化目标 关于产品架构的原则可以查看这里,我分了两篇来写: https://www.cnblogs.com/buoge/p
阅读全文
摘要:这段时间一直学习极客时间皓哥的分布式架构,关于异步处理有一些感想用sketch做了一个图,展示上直观一些,和大家交流下
阅读全文
摘要:前提条件: 数据库容量上亿级别,索引只有id,没有创建时间索引 达到目标: 把阿里云RDS Mysql表数据同步到hive中,按照mysql表数据的创建时间日期格式分区,每天一个分区方便查询 每天运行crontab定时的增量备份数据,还是依据自增的id 遇到的问题: 没法建立创建时间的索引,不能按时
阅读全文
摘要:查询分区的大小 select d.NAME,t.TBL_NAME,p.PART_NAME,prm.PARAM_KEY,prm.PARAM_VALUE from TBLS t left join DBS d on t.DB_ID = d.DB_ID left join PARTITIONS p on
阅读全文
摘要:在传统数据库里,表的模式是在数据加载时强制确定的。如果在加载时发现数据不符合模式,则被拒绝加载数据。因为数据是在写入数据库是对照模式进行检查,因此这一设计有时被称为“写时模式”(schema on write)。 Hive这种类型的数据处理模式对数据的验证并在不加载数据时进行,而在查询时进行。这称为
阅读全文
摘要:起因是我运行wordcount测试一直卡主,不能执行,一直处于 Accept 状态,等待被执行,刚开始是各种配置yarn参数,以及host配置,后来发现还是不行 hadoop 集群安装完成后,在50070的 HDFS 管理后台能看到,livenode 为2, 但是在 YARN 的资源管理后台,htt
阅读全文