virus丶舒 - 博客园

2019年8月8日

摘要：实现步骤： 1）上传解压spark安装包 2）进入spark安装目录的conf目录 3）配置spark-env.sh文件配置示例： #本机ip地址 SPARK_LOCAL_IP=hadoop01 #spark的shuffle中间过程会产生一些临时文件，此项指定的是其存放目录，不配置默认是在 /tm 阅读全文

posted @ 2019-08-08 19:20 virus丶舒阅读(341) 评论(0) 推荐(0) 编辑

Spark单机模式安装

摘要：实现步骤： 1）安装和配置好JDK 2）上传和解压Spark安装包 3）进入Spark安装目录下的conf目录复制conf spark-env.sh.template 文件为 spark-env.sh 在其中修改，增加如下内容： SPARK_LOCAL_IP=服务器IP地址 Spark单机模式启动阅读全文

posted @ 2019-08-08 19:19 virus丶舒阅读(2189) 评论(0) 推荐(0) 编辑

SparkSQL入门

摘要：概述 SparkSql将RDD封装成一个DataFrame对象，这个对象类似于关系型数据库中的表。创建DataFrame对象 DataFrame就相当于数据库的一张表。它是个只读的表，不能在运算过程再往里加元素。 RDD.toDF("列名") scala> val rdd = sc.paralle 阅读全文

posted @ 2019-08-08 19:14 virus丶舒阅读(298) 评论(0) 推荐(0) 编辑

SparkSql API

摘要：通过api使用sparksql 实现步骤： 1）打开scala IDE开发环境，创建一个scala工程 2）导入spark相关依赖jar包 3）创建包路径以object类 4）写代码代码示意： package cn.tedu.sparksql import org.apache.spark.Spa 阅读全文

posted @ 2019-08-08 19:09 virus丶舒阅读(603) 评论(0) 推荐(0) 编辑

Spark和HBase整合

摘要：写入HBase表代码示例： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.hadoop.hbase.mapreduce.TableOutputFormat import 阅读全文

posted @ 2019-08-08 19:07 virus丶舒阅读(1741) 评论(0) 推荐(0) 编辑

SparkStreaming与Kafka整合

摘要：代码示例： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.streaming.StreamingContext import org.apache.spar 阅读全文

posted @ 2019-08-08 19:05 virus丶舒阅读(380) 评论(0) 推荐(0) 编辑

SparkStreaming基础案例

摘要： WordCount案例案例一： import org.apache.spark.streaming._ val ssc = new StreamingContext(sc,Seconds(5)); val lines = ssc.textFileStream("file:///home/softw 阅读全文

posted @ 2019-08-08 19:04 virus丶舒阅读(731) 评论(0) 推荐(0) 编辑

Spark 自定义分区及区内二次排序demo

摘要： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.Partitioner import org.apache.spark.HashPartitioner object Demo { def main(args: Array[String]): Uni... 阅读全文

posted @ 2019-08-08 17:22 virus丶舒阅读(504) 评论(0) 推荐(0) 编辑

2019年8月7日

Sqoop安装及指令

摘要： Sqoop介绍 sqoop是Apache 提供的工具用于hdfs和关系型数据库之间数据的导入和导入可以从hdfs导出数据到关系型数据库，也可以从关系型数据库导入数据到hdfs。实现步骤： 1.准备sqoop安装包，官网地址：http://sqoop.apache.org 2.配置jdk环境变量阅读全文

posted @ 2019-08-07 17:40 virus丶舒阅读(304) 评论(0) 推荐(0) 编辑

Scala Windows运行环境配置及使用

摘要：实现步骤： 1）双击运行安装 2）添加scala安装目录的bin目录路径到系统环境变量中 3）通过cmd命令窗口，输入scala 交互模式 4）可以通过命令行直接输入scala命令，比如：编译模式 5）也可以先编写 ***.scala文件，通过执行文件来执行命令，比如：先在e盘下创建一个hell 阅读全文

posted @ 2019-08-07 17:37 virus丶舒阅读(2342) 评论(0) 推荐(0) 编辑

公告

昵称： virus丶舒
园龄： 5年7个月
粉丝： 1
关注： 1

2025年2月

日

一

二

三

四

五

六

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜