spark - 随笔分类 - 暴躁IT老绵羊

3.sparkSQL整合Hive

摘要：spark SQL经常需要访问Hive metastore，Spark SQL可以通过Hive metastore获取Hive表的元数据。从Spark 1.4.0开始，Spark SQL只需简单的配置，就支持各版本Hive metastore的访问。注意，涉及到metastore时Spar SQL忽阅读全文

posted @ 2018-08-09 21:37 暴躁IT老绵羊阅读(15163) 评论(0) 推荐(4)

Spark的误解-不仅spark是内存计算，hadoop也是内存计算

摘要：市面上有一些初学者的误解，他们拿spark和hadoop比较时就会说，Spark是内存计算，内存计算是spark的特性。请问在计算机领域，mysql,redis,ssh框架等等他们不是内存计算吗?依据冯诺依曼体系结构，有什么技术的程序不是在内存中运行，需要数据从硬盘中拉取，然后供cpu进行执行？所有阅读全文

posted @ 2017-07-17 20:45 暴躁IT老绵羊阅读(11195) 评论(7) 推荐(12)

2.sparkSQL--DataFrames与RDDs的相互转换

摘要：Spark SQL支持两种RDDs转换为DataFrames的方式使用反射获取RDD内的Schema 当已知类的Schema的时候，使用这种基于反射的方法会让代码更加简洁而且效果也很好。通过编程接口指定Schema 通过Spark SQL的接口创建RDD的Schema，这种方式会让代码比较冗长。阅读全文

posted @ 2017-03-25 00:13 暴躁IT老绵羊阅读(2212) 评论(1) 推荐(0)

Spark2.1集群安装（standalone模式）

摘要：机器部署准备三台Linux服务器，安装好JDK1.7 下载Spark安装包上传spark-2.1.0-bin-hadoop2.6.tgz安装包到Linux(intsmaze-131)上解压安装包到指定位置tar -zxvf spark-2.1.0-bin-hadoop2.6.tgz -C /h 阅读全文

posted @ 2017-03-17 22:57 暴躁IT老绵羊阅读(3889) 评论(1) 推荐(0)

找工作中，欢迎各行业大佬捞我简历 ---著有：《深入理解Flink核心设计与实践原理》一书

为了快速构建项目，使用高性能框架是我的职责，但若不去深究底层的细节会让我失去对技术的热爱。每一个底层细节的攻克，就越发觉得自己对计算机一无所知，这可能就是对知识的敬畏。

随笔分类 - spark

公告

找工作中，欢迎各行业大佬捞我简历 ---著有：《深入理解Flink核心设计与实践原理》一书

为了快速构建项目，使用高性能框架是我的职责，但若不去深究底层的细节会让我失去对技术的热爱。 每一个底层细节的攻克，就越发觉得自己对计算机一无所知，这可能就是对知识的敬畏。

随笔分类 - spark

公告

为了快速构建项目，使用高性能框架是我的职责，但若不去深究底层的细节会让我失去对技术的热爱。每一个底层细节的攻克，就越发觉得自己对计算机一无所知，这可能就是对知识的敬畏。