12 2021 档案
摘要:大数据环境基本都是utf-8编码,如果数据文件非utf-8编码,Spark读取时会乱码,经验项目验证,通过sc.hadoopFile接口比较可靠,该接口返回的数据每行表示为<行偏移,行内容Text>,然后通过map方法,重新构造String,这样获得的String不会乱码,具体实现方式如下代码: /
阅读全文
摘要:背景 项目需要处理很多文件,而一些文件很大有几十GB,因此考虑对于这种文件,专门编写Spark程序处理,为了程序的统一处理,需要在代码中调用Spark作业来处理大文件。 实现方案 经过调研,发现可以使用Spark提供的SparkLauncher类进行Spark作业的提交,这个类的使用有很多参数需要注
阅读全文

浙公网安备 33010602011771号