2019年10月27日
摘要: 1、避免创建重复的RDD和不必要的内存空间浪费 错误代码: 错误解析: 这种情况下,Spark需要从文件中加载两次hello.txt文件的内容,并创建两个单独的RDD;第二次加载HDFS文件以及创建RDD的性能开销,很明显是白白浪费掉的 正确代码: 2、尽最大可能复用同一个RDD 错误代码: 错误解 阅读全文
posted @ 2019-10-27 12:25 灰色...天空 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 1、首先我们编写完类打成jar包提交到集群上,然后用spark-submit提交任务。提交任务可以分为集群和本地模式(集群:spark-submit --master spark://master:7077 --class 全类名 jar包路径 需要的参数)(本地:spark-submit --cl 阅读全文
posted @ 2019-10-27 12:04 灰色...天空 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 粘贴复制时记得把\后面的空格和注释删除!!! 1.查看数据库 sqoop list-databases \ #查看数据库的命令 --connect jdbc:mysql://master:3306 \ #数据库连接地址 --username root \ #用户名 --password root # 阅读全文
posted @ 2019-10-27 12:03 灰色...天空 阅读(179) 评论(0) 推荐(0) 编辑