05 2019 档案
摘要:在struct streaming提供了一个类,用来监听流的启动、停止、状态更新 StreamingQueryListener 实例化:StreamingQueryListener 后需要实现3个函数: abstract class StreamingQueryListener { import S
阅读全文
摘要:spark sql中有一个类: org.apache.spark.sql.internal.SharedState 它是用来做: 1、元数据地址管理(warehousePath) 2、查询结果缓存管理(cacheManager) 3、程序中的执行状态和metrics的监控(statusStore)
阅读全文
摘要:因为做了cdh的迁移,启动后所有服务都是正常执行,不影响操作,但是尴尬的是,页面上的图表监控不见了 这种情况的根本原因就是: Host Monitor和Service Monitor服务失效! 解决: 去主节点中的/var/lib目录,然后删掉:cloudera-host-monitor , clo
阅读全文
摘要:组件:cdh5.14.0 spark是自己编译的spark2.1.0-cdh5.14.0 第一步:确认spark-defaults.conf中添加了如下配置: spark.shuffle.service.enabled true //启用External shuffle Service服务 spar
阅读全文
摘要:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream at org.apache.spark.deploy.SparkSubmitArguments.hand
阅读全文
摘要:现象: + + + + + + + + + + + + + + +|totalCount|January|February|March|April| May|June|July|August|September|October|November|December|totalMileage|+ + +
阅读全文
摘要:错误大概这样: Caused by: java.util.concurrent.ExecutionException: Boxed Error Caused by: java.lang.UnsatisfiedLinkError: /opt/cdh/hadoop-2.6.0-cdh5.14.0/tmp
阅读全文
摘要:自定义sparkSQL数据源的过程中,需要对sparkSQL表的schema和Hbase表的schema进行整合; 对于spark来说,要想自定义数据源,你可以实现这3个接口: BaseRelation 代表了一个抽象的数据源。该数据源由一行行有着已知schema的数据组成(关系表)。 TableS
阅读全文