摘要: DataFrame和RDD互操作的两种方式:1)反射:case class 前提:事先需要知道你的字段、字段类型 2)编程:Row 如果第一种情况不能满足你的要求(事先不知道列)3) 选型:优先考虑第一种 阅读全文
posted @ 2019-03-30 13:55 Arthur-Lance 阅读(317) 评论(0) 推荐(0) 编辑
摘要: RDD里面Person看不到具体的内容哦,DataFrame可以看到name age height, 这样,DataFrame就可以做更多的优化。 RDD: java/scala ==> jvm python ==> python runtime DataFrame: java/scala/pyth 阅读全文
posted @ 2019-03-30 13:15 Arthur-Lance 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 1)Hive下载:http://archive.cloudera.com/cdh5/cdh/5/ wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz 2)解压 tar -zxvf hive-1.1.0-cdh5 阅读全文
posted @ 2019-03-21 00:11 Arthur-Lance 阅读(187) 评论(0) 推荐(0) 编辑
摘要: mapred-site.xml yarn-site.xml 启动yarn:sbin/start-yarn.sh 验证是否启动成功 jps ResourceManager NodeManager web: http://hadoop001:8088 停止yarn: sbin/stop-yarn.sh 阅读全文
posted @ 2019-03-21 00:10 Arthur-Lance 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 1) 下载Hadoop http://archive.cloudera.com/cdh5/cdh/5/ 2.6.0-cdh5.7.0 wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz 2)安装jdk 下载 阅读全文
posted @ 2019-03-21 00:09 Arthur-Lance 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 1 Master(NameNode/NN) 带 N个Slaves(DataNode/DN) HDFS/YARN/HBase 1个文件会被拆分成多个Blockblocksize:128M130M ==> 2个Block: 128M 和 2M NN:1)负责客户端请求的响应2)负责元数据(文件的名称、副 阅读全文
posted @ 2019-03-21 00:08 Arthur-Lance 阅读(212) 评论(0) 推荐(0) 编辑
摘要: YARN架构1 RM(ResourceManager) + N NM(NodeManager) ResourceManager的职责: 一个集群active状态的RM只有一个,负责整个集群的资源管理和调度1)处理客户端的请求(启动/杀死)2)启动/监控ApplicationMaster(一个作业对应 阅读全文
posted @ 2019-03-20 00:16 Arthur-Lance 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 流程示意图 阅读全文
posted @ 2019-03-17 10:42 Arthur-Lance 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 1 2 3 21 22 46 49 /path/to/local/repo 54 --> 55 D:\software\apache-maven-3.6.0\maven_repos 56 57 true 64 --> 65 66 false 72 --> 73 74 79 80 com.... 阅读全文
posted @ 2019-03-16 10:59 Arthur-Lance 阅读(2421) 评论(0) 推荐(0) 编辑
摘要: package com.imooc.spark import org.apache.spark.SparkConf import org.apache.spark.streaming.kafka.KafkaUtils import org.apache.spark.streaming.{Seconds, StreamingContext} /** * Spark Streaming对接K... 阅读全文
posted @ 2019-03-16 10:22 Arthur-Lance 阅读(264) 评论(0) 推荐(0) 编辑