Hadoop概念学习系列之为什么hadoop/spark执行作业时，输出路径必须要不存在？（三十九）

　　很多人只会，但没深入体会和想为什么要这样？

　　拿Hadoop来说，当然，spark也一样的道理。

　　输出路径由Hadoop自己创建，实际的结果文件遵守part-nnnn的约定。

　　如何指定一个已有目录作为Hadoop作业的输出路径，作业将无法进行，并会抛出异常抗议一个已经存在的目录。如果想让Hadoop将输出存储到一个目录，它必须是不存的目录。其实，我们可以把这个特点当做Hadoop的一种安全机制，它可以防止Hadoop重写有用的文件以及用户总是忘记弄清的事。

posted @ 2016-11-23 09:10 大数据和AI躺过的坑阅读(800) 评论(0) 编辑收藏举报

刷新页面返回顶部

大数据和人工智能躺过的坑