会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
westfly
博客园
首页
新随笔
联系
订阅
管理
2016年6月9日
spark 中文编码处理
摘要: 日志的格式是GBK编码的,而hadoop上的编码是用UTF-8写死的,导致最终输出乱码。 研究了下Java的编码问题。 网上其实对spark输入文件是GBK编码有现成的解决方案,具体代码如下 这种想法的来源是基于 但这种方法还有一个问题, 大家都知道gbk是2~3个字节编码的。如果日志中按照直接截断
阅读全文
posted @ 2016-06-09 15:30 westfly
阅读(11238)
评论(0)
推荐(1)
编辑
公告