04 2019 档案

摘要:Apache Kafka是一款流行的分布式数据流平台,它已经广泛地被诸如New Relic(数据智能平台)、Uber、Square(移动支付公司)等大型公司用来构建可扩展的、高吞吐量的、且高可靠的实时数据流系统。例如,在New Relic的生产环境中,Kafka群集每秒能够处理超过1500万条消息, 阅读全文
posted @ 2019-04-24 09:49 一剑侵心 阅读(856) 评论(0) 推荐(0) 编辑
摘要:HDP 上安装了 Hive3.1 和 Spark2, 提交 Spark 作业时,报找不到 Hive 中表的问题 但是查一了下 hive 表,明明是存在这个表的。查看日志,注意到如下的一段日志。 没修改值之前,我在 Spark-shell 里创建了一张 hive 表,发现其创建的位置是 spark.s 阅读全文
posted @ 2019-04-23 19:01 一剑侵心 阅读(3217) 评论(2) 推荐(0) 编辑
摘要:YARN 中有三种调度器: 1. FIFO 调度器 (FIFO Scheduler) 应用在一个队列中,按照提交的顺序运行应用。 缺点:小作业如果在大作业后面提交,将会一直等到大作业结束才运行。 2. 容量调度器 (Capacity Scheduler) 有一个独立的专门队伍保证小作业一提交就可以启 阅读全文
posted @ 2019-04-09 16:30 一剑侵心 阅读(494) 评论(0) 推荐(0) 编辑
摘要:1. 想用 sqoop 增量的方式导入到 hive。运行下面的命令: 错误提示: --incremental lastmodified option for hive imports is not supported 我晕, --incremental lastmodified 和 --hive-i 阅读全文
posted @ 2019-04-02 18:57 一剑侵心 阅读(3881) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示