2020 年 5月 22 日随笔档案 - 挪威森林猫Zzz

2020年5月22日

摘要： K:有什么用? 内存不足可以用. 1.上代码我是1-10分为3个分区 , 并取出下标号为0 的分区的数据 ,然后Type ,要想获得自己想要的分区 , 执行这里返回的是新 RDD , 并且支持 map等操作 , 但是你只能操作一个分区了 . 在某些内存不够用的情况下 , 可以采用这种分阶段操作的阅读全文

posted @ 2020-05-22 20:44 挪威森林猫Zzz 阅读(1750) 评论(0) 推荐(0) 编辑

Spark常见算子

摘要： PX: 这些都是在scala环境下的 , 非Java Spark map 转化 1行转1行 , 但可以比如拆分 , 截取阅读全文

posted @ 2020-05-22 20:21 挪威森林猫Zzz 阅读(146) 评论(0) 推荐(0) 编辑

使用 python 批量插入 hive

摘要： 1.环境准备. 需要 python3.6 最好是安装anaconda 用anaconda navigator 安装这个 , 当然 , 纯 python环境下也能安装这个包 2. 插入hive 换个思路 , 直接插入到hive的表的仓库中 , 也就是hdfs上存储hive文件的地方 from hdfs 阅读全文

posted @ 2020-05-22 18:56 挪威森林猫Zzz 阅读(3216) 评论(0) 推荐(0) 编辑

挪威森林猫

花有重开日人无再少年

公告

挪威森林猫

花有重开日 人无再少年

公告

花有重开日人无再少年