12 2018 档案

摘要:之后可能会整理成文章。。还有一些坑没趟完。 Reference: https://cloud.tencent.com/developer/article/1078473 Sqoop抽取Hive Parquet表数据到MySQL异常分析 https://stackoverflow.com/questi 阅读全文
posted @ 2018-12-29 10:48 piperck 阅读(745) 评论(0) 推荐(0) 编辑
摘要:Parquet 是面向分析型业务的列式存储格式,由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目,最新的版本是 1.8.0。 列式存储 列式存储和行式存储相比有哪些优势呢? 当时 Twitter 的日增数据量达到压缩 阅读全文
posted @ 2018-12-19 17:13 piperck 阅读(573) 评论(0) 推荐(0) 编辑
摘要:上个月参加了一个云存储的技术讨论会。这一个月里,陆续收到几位同学讨论大数据保存和处理的邮件。今天是周末,索性把这个月的交流内容整理写下来,供各位参考。 目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是: 谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。 阅读全文
posted @ 2018-12-19 11:23 piperck 阅读(638) 评论(0) 推荐(0) 编辑
摘要:网上提交 scala spark 任务的攻略非常多,官方文档其实也非常详细仔细的介绍了 spark-submit 的用法。但是对于 python 的提交提及得非常少,能查阅到的资料非常少导致是有非常多的坑需要踩。 官方文档对于任务提交有这么一段介绍,但是初次使用者依然会非常疑惑: Bundling 阅读全文
posted @ 2018-12-14 19:15 piperck 阅读(19648) 评论(0) 推荐(1) 编辑
摘要:其实怎么部署 airflow 又哪些特性,然后功能又是如何全面都可以在 Reference 的文章里面找到,都不是重点这里就不赘述了。 这里重点谈一下我在部署完成仔细阅读文档之后觉得可以总结的一些东西,或者踩到的一些坑。 首选明确 airflow 中最重要的几个概念: DAG DAG 意为有向无循环 阅读全文
posted @ 2018-12-11 12:16 piperck 阅读(8802) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示