2018年3月28日
摘要: spark sql 保存parquet时如果列数多达几百个的性能优化 阅读全文
posted @ 2018-03-28 16:25 呵呵鱼 阅读(4360) 评论(0) 推荐(0) 编辑
  2017年8月25日
摘要: ElasticSearch 做为数据仓库处理速度确实很强,但是很多和业务相关的函数ElasticSearch怎么支持的,通过查询发现,ElasticSearch支持自定义插件(相当于自定义函数),通过自定义插件,开发人员可以实现各种业务相关的函数定义供相关人员使用。 1. ElasticSearch 阅读全文
posted @ 2017-08-25 00:18 呵呵鱼 阅读(5365) 评论(0) 推荐(0) 编辑
  2017年6月26日
摘要: elasticsearch 安装 阅读全文
posted @ 2017-06-26 23:58 呵呵鱼 阅读(2774) 评论(1) 推荐(0) 编辑
  2017年6月19日
摘要: maven镜像 nexus 阅读全文
posted @ 2017-06-19 14:16 呵呵鱼 阅读(28150) 评论(3) 推荐(2) 编辑
  2017年2月22日
摘要: 最近,公司生产集群添加kerberos安全认证后,访问集群的任何组件都需要进行认证,这样问题来了,对于impala,未配置kerberos安全认证之前通过impala的jdbc驱动(impala-jdbc),配置连接字符串 是可以正常访问的,但是开启了kerberos后,impala访问报错,经过阅 阅读全文
posted @ 2017-02-22 00:50 呵呵鱼 阅读(9582) 评论(0) 推荐(0) 编辑
  2016年11月13日
摘要: 拷贝本地文件到hdfs调试异常 阅读全文
posted @ 2016-11-13 15:49 呵呵鱼 阅读(3870) 评论(0) 推荐(1) 编辑
  2016年5月24日
摘要: 在CDH5.5.2上运行spark1.5的程序,运行起来就直接shutdown,并报出如下的异常: INFO YarnClientSchedulerBackend: SchedulerBackend is ready for scheduling beginning after waiting ma 阅读全文
posted @ 2016-05-24 00:34 呵呵鱼 阅读(11163) 评论(0) 推荐(0) 编辑
  2016年4月11日
摘要: MD5CryptoServiceProvider 如果多次使用会产生内存溢出,如下这样调用几百万次就会出现内存 溢出。 溢出。 溢出。 public static string MD5Encode(string source) { if (string.IsNullOrEmpty(source)) 阅读全文
posted @ 2016-04-11 15:22 呵呵鱼 阅读(581) 评论(0) 推荐(0) 编辑
  2015年12月11日
摘要: memcached定义 memcached 是一套分布式的高速缓存系统,被广泛应用于应用系统的缓存层来提升应用程序的访问速度;memcache缺乏认证以及安全管制,这表明应将memcached服务器放置在防火墙后;memcached的API使用32比特的循环冗余校验(CRC-32)计算键值后,将数据 阅读全文
posted @ 2015-12-11 15:29 呵呵鱼 阅读(625) 评论(0) 推荐(0) 编辑
  2015年9月18日
摘要: 背景 使用spark执行mapPartitionsWithIndex((index,iterator)=>{....}),在执行体中将iterator进行一次迭代后,再次根据iterator执行迭代,iterator迭代体未执行。 猜想及验证过程 猜测iterator只能执行一次迭代。 测试例子如下 阅读全文
posted @ 2015-09-18 13:41 呵呵鱼 阅读(6362) 评论(3) 推荐(0) 编辑