12 2021 档案

Spark如何读取gbk等非utf-8编码的文件

摘要：大数据环境基本都是utf-8编码，如果数据文件非utf-8编码，Spark读取时会乱码，经验项目验证，通过sc.hadoopFile接口比较可靠，该接口返回的数据每行表示为<行偏移,行内容Text>，然后通过map方法，重新构造String，这样获得的String不会乱码，具体实现方式如下代码： / 阅读全文

posted @ 2021-12-31 10:20 远去的列车阅读(436) 评论(0) 推荐(0)

利用SparkLauncher在代码中调用Spark作业

摘要：背景项目需要处理很多文件，而一些文件很大有几十GB，因此考虑对于这种文件，专门编写Spark程序处理，为了程序的统一处理，需要在代码中调用Spark作业来处理大文件。实现方案经过调研，发现可以使用Spark提供的SparkLauncher类进行Spark作业的提交，这个类的使用有很多参数需要注阅读全文

posted @ 2021-12-30 20:11 远去的列车阅读(1272) 评论(0) 推荐(0)

记录

公众号：远去的列车

12 2021 档案

公告