随笔分类 - 大数据
spark生成大宽表的parquet性能优化
摘要:spark sql 保存parquet时如果列数多达几百个的性能优化
阅读全文
window 环境下jdbc访问启用kerberos的impala
摘要:最近,公司生产集群添加kerberos安全认证后,访问集群的任何组件都需要进行认证,这样问题来了,对于impala,未配置kerberos安全认证之前通过impala的jdbc驱动(impala-jdbc),配置连接字符串 是可以正常访问的,但是开启了kerberos后,impala访问报错,经过阅
阅读全文
spark 运行问题记录
摘要:在CDH5.5.2上运行spark1.5的程序,运行起来就直接shutdown,并报出如下的异常: INFO YarnClientSchedulerBackend: SchedulerBackend is ready for scheduling beginning after waiting ma
阅读全文
Scala中Iterator允许执行一次
摘要:背景 使用spark执行mapPartitionsWithIndex((index,iterator)=>{....}),在执行体中将iterator进行一次迭代后,再次根据iterator执行迭代,iterator迭代体未执行。 猜想及验证过程 猜测iterator只能执行一次迭代。 测试例子如下
阅读全文