随笔分类 -  spark

摘要:spark SQL经常需要访问Hive metastore,Spark SQL可以通过Hive metastore获取Hive表的元数据。从Spark 1.4.0开始,Spark SQL只需简单的配置,就支持各版本Hive metastore的访问。注意,涉及到metastore时Spar SQL忽 阅读全文
posted @ 2018-08-09 21:37 暴躁IT老绵羊 阅读(15051) 评论(0) 推荐(4) 编辑
摘要:市面上有一些初学者的误解,他们拿spark和hadoop比较时就会说,Spark是内存计算,内存计算是spark的特性。请问在计算机领域,mysql,redis,ssh框架等等他们不是内存计算吗?依据冯诺依曼体系结构,有什么技术的程序不是在内存中运行,需要数据从硬盘中拉取,然后供cpu进行执行?所有 阅读全文
posted @ 2017-07-17 20:45 暴躁IT老绵羊 阅读(11133) 评论(7) 推荐(12) 编辑
摘要:Spark SQL支持两种RDDs转换为DataFrames的方式 使用反射获取RDD内的Schema 当已知类的Schema的时候,使用这种基于反射的方法会让代码更加简洁而且效果也很好。 通过编程接口指定Schema 通过Spark SQL的接口创建RDD的Schema,这种方式会让代码比较冗长。 阅读全文
posted @ 2017-03-25 00:13 暴躁IT老绵羊 阅读(2178) 评论(1) 推荐(0) 编辑
摘要:机器部署 准备三台Linux服务器,安装好JDK1.7 下载Spark安装包 上传spark-2.1.0-bin-hadoop2.6.tgz安装包到Linux(intsmaze-131)上 解压安装包到指定位置tar -zxvf spark-2.1.0-bin-hadoop2.6.tgz -C /h 阅读全文
posted @ 2017-03-17 22:57 暴躁IT老绵羊 阅读(3865) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示