posts - 14,  comments - 7,  views - 74339
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

随笔分类 -  大数据

spark生成大宽表的parquet性能优化
摘要:spark sql 保存parquet时如果列数多达几百个的性能优化 阅读全文
posted @ 2018-03-28 16:25 呵呵鱼 阅读(4433) 评论(0) 推荐(0) 编辑
ElasticSearch 5.4 安装
摘要:elasticsearch 安装 阅读全文
posted @ 2017-06-26 23:58 呵呵鱼 阅读(2787) 评论(1) 推荐(0) 编辑
window 环境下jdbc访问启用kerberos的impala
摘要:最近,公司生产集群添加kerberos安全认证后,访问集群的任何组件都需要进行认证,这样问题来了,对于impala,未配置kerberos安全认证之前通过impala的jdbc驱动(impala-jdbc),配置连接字符串 是可以正常访问的,但是开启了kerberos后,impala访问报错,经过阅 阅读全文
posted @ 2017-02-22 00:50 呵呵鱼 阅读(9731) 评论(0) 推荐(0) 编辑
复制本地文件到HDFS本地测试异常
摘要:拷贝本地文件到hdfs调试异常 阅读全文
posted @ 2016-11-13 15:49 呵呵鱼 阅读(3906) 评论(0) 推荐(1) 编辑
spark 运行问题记录
摘要:在CDH5.5.2上运行spark1.5的程序,运行起来就直接shutdown,并报出如下的异常: INFO YarnClientSchedulerBackend: SchedulerBackend is ready for scheduling beginning after waiting ma 阅读全文
posted @ 2016-05-24 00:34 呵呵鱼 阅读(11207) 评论(0) 推荐(0) 编辑
Scala中Iterator允许执行一次
摘要:背景 使用spark执行mapPartitionsWithIndex((index,iterator)=>{....}),在执行体中将iterator进行一次迭代后,再次根据iterator执行迭代,iterator迭代体未执行。 猜想及验证过程 猜测iterator只能执行一次迭代。 测试例子如下 阅读全文
posted @ 2015-09-18 13:41 呵呵鱼 阅读(6370) 评论(3) 推荐(0) 编辑
Hadoop基础
摘要:Hadoop 阅读全文
posted @ 2015-09-13 23:14 呵呵鱼 阅读(166) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示