摘要: 也可以存入hive、HDFS,这里选择存在mysql。 一、安装mysql(python在pyspark一节已配置好) https://blog.csdn.net/zhouzezhou/article/details/52446608 安装后找不到bin目录解决方法 https://blog.csd 阅读全文
posted @ 2020-12-19 20:20 foolangirl 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 1.场景 生成太多Map时,计算任务会耗费很多时间在Map的启动上,这时候需要对Map数进行控制。 2.原理 单独配置参数:set mapred.map.tasks=tasknum时,可能无法真正的起到调节效果,原因如下: 1)默认情况Map个数defaultNum=目标数据文件总大小totalSi 阅读全文
posted @ 2020-12-19 17:45 foolangirl 阅读(578) 评论(0) 推荐(0) 编辑