04 2019 档案
摘要:Apache Kafka是一款流行的分布式数据流平台,它已经广泛地被诸如New Relic(数据智能平台)、Uber、Square(移动支付公司)等大型公司用来构建可扩展的、高吞吐量的、且高可靠的实时数据流系统。例如,在New Relic的生产环境中,Kafka群集每秒能够处理超过1500万条消息,
阅读全文
摘要:HDP 上安装了 Hive3.1 和 Spark2, 提交 Spark 作业时,报找不到 Hive 中表的问题 但是查一了下 hive 表,明明是存在这个表的。查看日志,注意到如下的一段日志。 没修改值之前,我在 Spark-shell 里创建了一张 hive 表,发现其创建的位置是 spark.s
阅读全文
摘要:YARN 中有三种调度器: 1. FIFO 调度器 (FIFO Scheduler) 应用在一个队列中,按照提交的顺序运行应用。 缺点:小作业如果在大作业后面提交,将会一直等到大作业结束才运行。 2. 容量调度器 (Capacity Scheduler) 有一个独立的专门队伍保证小作业一提交就可以启
阅读全文
摘要:1. 想用 sqoop 增量的方式导入到 hive。运行下面的命令: 错误提示: --incremental lastmodified option for hive imports is not supported 我晕, --incremental lastmodified 和 --hive-i
阅读全文