摘要:
也可以存入hive、HDFS,这里选择存在mysql。 一、安装mysql(python在pyspark一节已配置好) https://blog.csdn.net/zhouzezhou/article/details/52446608 安装后找不到bin目录解决方法 https://blog.csd 阅读全文
摘要:
1.场景 生成太多Map时,计算任务会耗费很多时间在Map的启动上,这时候需要对Map数进行控制。 2.原理 单独配置参数:set mapred.map.tasks=tasknum时,可能无法真正的起到调节效果,原因如下: 1)默认情况Map个数defaultNum=目标数据文件总大小totalSi 阅读全文