摘要: K:有什么用? 内存不足可以用. 1.上代码 我是1-10分为3个分区 , 并取出下标号为0 的分区的数据 ,然后Type ,要想获得自己想要的分区 , 执行 这里返回的是新 RDD , 并且支持 map等操作 , 但是你只能操作一个分区了 . 在某些内存不够用的情况下 , 可以采用这种分阶段操作的 阅读全文
posted @ 2020-05-22 20:44 挪威森林猫Zzz 阅读(1765) 评论(0) 推荐(0) 编辑
摘要: PX: 这些都是在scala环境下的 , 非Java Spark map 转化 1行转1行 , 但可以比如拆分 , 截取 阅读全文
posted @ 2020-05-22 20:21 挪威森林猫Zzz 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 1.环境准备. 需要 python3.6 最好是安装anaconda 用anaconda navigator 安装这个 , 当然 , 纯 python环境下也能安装这个包 2. 插入hive 换个思路 , 直接插入到hive的表的仓库中 , 也就是hdfs上存储hive文件的地方 from hdfs 阅读全文
posted @ 2020-05-22 18:56 挪威森林猫Zzz 阅读(3239) 评论(0) 推荐(0) 编辑