摘要:
spark sql 保存parquet时如果列数多达几百个的性能优化 阅读全文
摘要:
ElasticSearch 做为数据仓库处理速度确实很强,但是很多和业务相关的函数ElasticSearch怎么支持的,通过查询发现,ElasticSearch支持自定义插件(相当于自定义函数),通过自定义插件,开发人员可以实现各种业务相关的函数定义供相关人员使用。 1. ElasticSearch 阅读全文
摘要:
elasticsearch 安装 阅读全文
摘要:
maven镜像 nexus 阅读全文
摘要:
最近,公司生产集群添加kerberos安全认证后,访问集群的任何组件都需要进行认证,这样问题来了,对于impala,未配置kerberos安全认证之前通过impala的jdbc驱动(impala-jdbc),配置连接字符串 是可以正常访问的,但是开启了kerberos后,impala访问报错,经过阅 阅读全文
摘要:
拷贝本地文件到hdfs调试异常 阅读全文
摘要:
在CDH5.5.2上运行spark1.5的程序,运行起来就直接shutdown,并报出如下的异常: INFO YarnClientSchedulerBackend: SchedulerBackend is ready for scheduling beginning after waiting ma 阅读全文
摘要:
MD5CryptoServiceProvider 如果多次使用会产生内存溢出,如下这样调用几百万次就会出现内存 溢出。 溢出。 溢出。 public static string MD5Encode(string source) { if (string.IsNullOrEmpty(source)) 阅读全文
摘要:
memcached定义 memcached 是一套分布式的高速缓存系统,被广泛应用于应用系统的缓存层来提升应用程序的访问速度;memcache缺乏认证以及安全管制,这表明应将memcached服务器放置在防火墙后;memcached的API使用32比特的循环冗余校验(CRC-32)计算键值后,将数据 阅读全文
摘要:
背景 使用spark执行mapPartitionsWithIndex((index,iterator)=>{....}),在执行体中将iterator进行一次迭代后,再次根据iterator执行迭代,iterator迭代体未执行。 猜想及验证过程 猜测iterator只能执行一次迭代。 测试例子如下 阅读全文