摘要: hive> load data inpath "hdfs://Master.hdp:9000/person.txt" into table Person1; FAILED: SemanticException [Error 10028]: Line 1:17 Path is not legal '" 阅读全文
posted @ 2017-08-25 14:09 卡丽熙 阅读(4415) 评论(0) 推荐(0) 编辑
摘要: 1.1. Spark SQL概述 1.1.1. 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 1.1.2. 为什么要学习Spark SQL 我们已经学习了Hive,它是将Hive 阅读全文
posted @ 2017-08-25 11:42 卡丽熙 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 1.RDD的缓存 Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存个数据集。当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存,是Spark最重要的特征之 阅读全文
posted @ 2017-08-25 10:56 卡丽熙 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 思考:在spark的wordcount过程一共产生多少个RDD? 通过该命令(scala> rdd.toDebugString)可以查看RDD的依赖关系 (6个,除了图中的五个,rdd.saveAsTextFile也还会产生一个RDD) 接下来一步步分析(通过查看spark源码进行分析) (1) s 阅读全文
posted @ 2017-08-24 20:24 卡丽熙 阅读(814) 评论(0) 推荐(0) 编辑
摘要: spark集群部署好之后,运行start-all.sh,可以成功运行,但是运行shell出错,显示超时 由于netty是spark通信框架,通信超时所以产生问题。 解决方法:1.ip6可能是一个可能原因,把::1也就是ip6先注释掉试试(不行) 2.设置下超时时间(靠谱):SparkConf: co 阅读全文
posted @ 2017-08-23 20:11 卡丽熙 阅读(1143) 评论(0) 推荐(0) 编辑
摘要: 通过该命令查看kafka的分区,leader情况,在配置时,broker.id有0,1,2,该topic的leader是id为1的服务器,leader是动态选取,通过依赖zookeeper 阅读全文
posted @ 2017-08-21 20:14 卡丽熙 阅读(152) 评论(0) 推荐(0) 编辑