随笔分类 -  BigData

摘要:表 1、重命名表重命名表的语句如下: 2、修改表属性: 3、修改表注释: 列 1、添加列 2、修改列 分区 1、增加分区 2、删除分区 Reference: https://www.jianshu.com/p/9088fe002e2a Hive 修改table、column 阅读全文
posted @ 2019-06-13 18:15 piperck 阅读(8618) 评论(0) 推荐(0) 编辑
摘要:一直在调研一个轻量级开源的 BI 系统。之前我们生产环境使用的 aliyun 的 QuickBi,也调研了另外一个 airflow 的开源商业智能 superset。不得不承认 QuickBI 正在日益完善变得好用,但是因其重量级,不灵活,支持数据源单一(比如普通版本只支持 自建 MySQL | R 阅读全文
posted @ 2019-06-03 17:16 piperck 阅读(7308) 评论(0) 推荐(0) 编辑
摘要:之前对 SQL 还是不是非常熟悉的,但是现在或多或少还是会写一些计算任务。比如最近在推送将所有天级的耗时任务都从传统关系型数据库迁移至 Spark 集群当中进行计算,中间遇到一些有趣的小问题在这里记录一下。 Q: 我想按照某个字段分组并且把一组查询字段连起来得到一个 json 然后把结果作为一个字段 阅读全文
posted @ 2019-05-24 12:10 piperck 阅读(2031) 评论(0) 推荐(0) 编辑
摘要:Yarn 工作架构 最近随着集群大家开始频繁使用集群,资源调度的问题越发的凸显出来。需要更加深入的了解 yarn 资源调度的原理,以及到底在背后做了一些什么事情。 来看一下下面这张图。 yarn 里面有两个大的角色,这个也很容易在 yarn 里面的配置看到。 一个是 Resource Manager 阅读全文
posted @ 2019-01-07 16:39 piperck 阅读(11069) 评论(0) 推荐(1) 编辑
摘要:之后可能会整理成文章。。还有一些坑没趟完。 Reference: https://cloud.tencent.com/developer/article/1078473 Sqoop抽取Hive Parquet表数据到MySQL异常分析 https://stackoverflow.com/questi 阅读全文
posted @ 2018-12-29 10:48 piperck 阅读(745) 评论(0) 推荐(0) 编辑
摘要:上个月参加了一个云存储的技术讨论会。这一个月里,陆续收到几位同学讨论大数据保存和处理的邮件。今天是周末,索性把这个月的交流内容整理写下来,供各位参考。 目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是: 谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。 阅读全文
posted @ 2018-12-19 11:23 piperck 阅读(638) 评论(0) 推荐(0) 编辑
摘要:网上提交 scala spark 任务的攻略非常多,官方文档其实也非常详细仔细的介绍了 spark-submit 的用法。但是对于 python 的提交提及得非常少,能查阅到的资料非常少导致是有非常多的坑需要踩。 官方文档对于任务提交有这么一段介绍,但是初次使用者依然会非常疑惑: Bundling 阅读全文
posted @ 2018-12-14 19:15 piperck 阅读(19648) 评论(0) 推荐(1) 编辑
摘要:其实怎么部署 airflow 又哪些特性,然后功能又是如何全面都可以在 Reference 的文章里面找到,都不是重点这里就不赘述了。 这里重点谈一下我在部署完成仔细阅读文档之后觉得可以总结的一些东西,或者踩到的一些坑。 首选明确 airflow 中最重要的几个概念: DAG DAG 意为有向无循环 阅读全文
posted @ 2018-12-11 12:16 piperck 阅读(8803) 评论(0) 推荐(0) 编辑
摘要:Sqoop 是 Cloudera 公司创造的一个数据同步工具,现在已经完全开源了。 目前已经是 hadoop 生态环境中数据迁移的首选,另外还有 ali 开发的 DataX 属于同类型工具,由于社区的广泛使用和文档的健全,调研之后决定使用 Sqoop 来做我们之后数据同步的工具。 我们首先来看下 S 阅读全文
posted @ 2018-11-19 17:25 piperck 阅读(19787) 评论(0) 推荐(4) 编辑
摘要:集群搭建完成之后其实还有很多配置工作要做,这里我列举一些我去做的一些。 首先是去把 zk 的角色重新分配一下,不知道是不是我在配置的时候遗漏了什么在启动之后就有报警说目前只能检查到一个节点。去将 zk 角色调整到三个节点。 上一张目前的角色图 下面我将分别列出各应用的各个简写代表的意义: Hbase 阅读全文
posted @ 2018-11-14 12:05 piperck 阅读(606) 评论(0) 推荐(0) 编辑
摘要:这次搭建我使用的机器 os 是 Centos7.4 RH 系的下面以流的方式纪录搭建过程以及注意事项 Step1: 配置域名相关,因为只有三台机器组集群,所以直接使用了 hosts 的方法: Step2: 关闭防火墙 Step3: 启动 NTP 服务 所有机器完成上面配置之后,我们开始进入安装的步骤 阅读全文
posted @ 2018-11-12 01:58 piperck 阅读(11310) 评论(0) 推荐(2) 编辑
摘要:从这一篇文章开始会有三篇文章依次介绍集群搭建 「Before install」 「Process」 「After install」 继上一篇使用 docker 部署单机 CDH 的文章,当我们使用 docker 评估完相关组件和一些功能之后,接下来就是使用 CDH express 版本来搭建集群。 阅读全文
posted @ 2018-11-11 17:21 piperck 阅读(1852) 评论(0) 推荐(0) 编辑
摘要:想用 CDH 大礼包,于是先在 Mac 上和 Centos7.4 上分别搞个了单机的测试用。其实操作的流和使用到的命令差不多就一并说了: 首先前往官方下载包: https://www.cloudera.com/downloads/quickstart_vms/5-13.html 如果使用 mac 并 阅读全文
posted @ 2018-11-06 18:38 piperck 阅读(22707) 评论(7) 推荐(0) 编辑