07 2019 档案

摘要:最近在做大数据处理时,遇到两个大表 join 导致数据处理太慢(甚至算不出来)的问题。我们的数仓基于阿里的 ODPS,它与 Hive 类似,所以这篇文章也适用于使用 Hive 优化。处理优化问题,一般是先指定一些常用的优化参数,但是当设置参数仍然不奏效的时候,我们就要结合具体的业务,在 SQL 上做 阅读全文
posted @ 2019-07-16 08:32 渡码 阅读(4301) 评论(8) 推荐(4) 编辑
摘要:小结 从 19 年开始决定写博客,到现在半年的时间已经在博客园写了 24 篇原创文章。虽然数量不多,基本上每周一篇的节奏,但还是有点小坚持带来的喜悦。虽然没什么人气,但积累积累也算是对自己所做的事情一个总结、思考,同时也提高一下自己的写作能力。 这半年除了每周写一篇博客,下班时间还会在知乎上做一些问 阅读全文
posted @ 2019-07-12 08:22 渡码 阅读(913) 评论(2) 推荐(2) 编辑
摘要:Protoc Buffer 是我们比较常用的序列化框架,Protocol Buffer 序列化后的占空间小,传输高效,可以在不同编程语言以及平台之间传输。今天这篇文章主要介绍 Protocol Buffer 使用 VarInt32 减少序列化后的数据大小。 VarInt32 编码 VarInt32 阅读全文
posted @ 2019-07-02 08:32 渡码 阅读(1265) 评论(0) 推荐(1) 编辑