Spark - 随笔分类 - 邬家栋

摘要：日志分析问题：如何将p(4)里面的继续切分阅读全文

posted @ 2017-03-07 20:27 邬家栋阅读(1452) 评论(0) 推荐(0) 编辑

摘要：spark SQL初步认识 spark SQL是spark的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。 DataFrame：它可以根据很多源进行构建，包括：结构化的数据文件，hive中的表，外部的关系型数据库，以及RDD 创建DataFrame 数据文件阅读全文

posted @ 2017-03-07 20:22 邬家栋阅读(14117) 评论(0) 推荐(0) 编辑

spark SQL学习（案例-统计每日销售）

摘要：需求：统计每日销售额运行结果阅读全文

posted @ 2017-03-07 20:19 邬家栋阅读(1827) 评论(0) 推荐(0) 编辑

spark SQL学习（案例-统计每日uv）

摘要：需求：统计每日uv 运行结果阅读全文

posted @ 2017-03-07 20:18 邬家栋阅读(2387) 评论(0) 推荐(0) 编辑

spark SQL学习（spark连接 mysql）

摘要：spark连接mysql（打jar包方式）提交集群运行结果常见报错1 如果添加了命令和jar运行也不行,则用以下办法常见报错2 spark连接mysql（spark shell方式）方式1 方式2 方式3 阅读全文

posted @ 2017-03-07 20:15 邬家栋阅读(22494) 评论(0) 推荐(1) 编辑

spark SQL学习（spark连接hive）

摘要：spark 读取hive中的数据 spark载入数据到hive 两个文件 scala代码参考资料 http://dblab.xmu.edu.cn/blog/1086 2/ 参考资料 http://blog.csdn.net/ggz631047367/article/details/50445877 阅读全文

posted @ 2017-03-07 20:14 邬家栋阅读(11187) 评论(0) 推荐(0) 编辑

spark SQL学习（数据源之json）

摘要：准备工作数据文件students.json 存放目录：hdfs://master:9000/student/2016113012/spark/students.json scala代码 package wujiadong_sparkSQL import org.apache.spark.sql.S 阅读全文

posted @ 2017-03-07 20:12 邬家栋阅读(3444) 评论(0) 推荐(0) 编辑

spark SQL学习（数据源之parquet）

摘要：Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例 ` 运行结果自动分区合并元数据 1）读取parquet文件时，将数据源的选项mergeSchema，设置为true 2）使用SQLContext.setConf()方法，将spark.sql.parquet.mergeSc 阅读全文

posted @ 2017-03-07 20:11 邬家栋阅读(946) 评论(0) 推荐(0) 编辑

spark SQL学习（load和save操作）

摘要：load操作：主要用于加载数据，创建出DataFrame save操作：主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型) 提交集群运行运行后查看是否保存成功手动指定数据源类型（进行格式转换很方便）默认情况下不指定数据源类型的话就是parquet类型阅读全文

posted @ 2017-03-07 20:08 邬家栋阅读(2445) 评论(0) 推荐(0) 编辑

spark学习（RDD案例实战）

摘要：练习0（并行化创建RDD）练习1（map，filter）练习2（map和flatMap）练习3（union，intersecttion，distinct）练习4（sortBy）练习5（groupByKey,reduceByKey,sortByKey）练习6（join）练习7（reduc 阅读全文

posted @ 2017-03-05 18:48 邬家栋阅读(3293) 评论(0) 推荐(1) 编辑

spark学习12（Wordcount程序之spark-shell）

摘要：在目录/home/hadoop/2016113012下有文件words.txt 上传该文件到hdfs 启动spark shell 在spark shell中使用Scala编写spark程序阅读全文

posted @ 2017-03-04 21:18 邬家栋阅读(408) 评论(0) 推荐(0) 编辑

spark学习14（spark local模式运行spark程序的报错）

摘要：报错1 解决办法报错2 解决办法运行之后还是报这个错的话，原因可能是scala版本兼容，我从scala2.11到scala2.10,就可以了阅读全文

posted @ 2017-03-03 18:26 邬家栋阅读(1359) 评论(0) 推荐(0) 编辑

spark学习13（spark RDD）

摘要：RDD及其特点 1）RDD（Resillient Distributed Dataset）弹性分布式数据集，是spark提供的核心抽象。它代表一个不可变、可分区、里面的元素可并行计算的集合 2）RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上阅读全文

posted @ 2017-02-11 13:47 邬家栋阅读(605) 评论(0) 推荐(0) 编辑

spark学习12（spark架构原理）

摘要：spark采用的是主从式的架构，主节点叫master，从节点是worker Driver 我们编写的spark就在Driver上，由driver进程执行。 Driver是spark集群的节点之一，或你提交spark程序的机器 Master master是集群的资源管理者和调度者，类似yarn里面的R 阅读全文

posted @ 2017-02-11 13:45 邬家栋阅读(1244) 评论(0) 推荐(0) 编辑

spark学习11（Wordcount程序-本地测试）

摘要：wordcount程序文件wordcount.txt 程序示例运行结果阅读全文

posted @ 2017-02-11 13:40 邬家栋阅读(930) 评论(0) 推荐(0) 编辑

spark学习10（win下利用Intellij IDEA搭建spark开发环境）

摘要：第一步：启动IntelliJ IDEA，选择Create New Project，然后选择Scala，点击下一步，输入项目名称wujiadong.spark继续下一步第二步：导入spark assembly 1.5.1 hadoop2.6.0.jar包 File——Project Structur 阅读全文

posted @ 2017-02-02 20:39 邬家栋阅读(9731) 评论(0) 推荐(1) 编辑

spark学习7（spark2.0集群搭建）

摘要：第一步：安装spark 将官网下载好的spark 2.0.0 bin hadoop2.6.tgz上传到/usr/spark目录下。这里需注意的是spark和hadoop有对应版本关系第二步：修改配置文件第三步：在spark2和spark3节点上也安装spark 第四步：验证spark以及进入sp 阅读全文

posted @ 2016-12-31 22:19 邬家栋阅读(598) 评论(0) 推荐(0) 编辑

spark学习6（Centos下Scala2.11.4安装）

摘要：Centos下Scala安装上传Scala到/usr/scala目录下阅读全文

posted @ 2016-12-31 21:03 邬家栋阅读(552) 评论(0) 推荐(0) 编辑

spark学习5（hbase集群搭建）

摘要：第一步：Hbase安装 hadoop，zookeeper前面都安装好了将hbase 1.1.3 bin.tar.gz上传到/usr/HBase目录下第二步：修改配置文件编辑 hbase env.xml 编辑 hbase site.xml 编辑 regionservers 第三步：搭建hbase 阅读全文

posted @ 2016-12-15 21:57 邬家栋阅读(522) 评论(0) 推荐(0) 编辑

spark学习4（zookeeper3.4集群搭建）

摘要：第一步：zookeeper安装通过WinSCP软件将zookeeper 3.4.8.tar.gz软件传送到/usr/zookeeper/目录下第二步：配置zoo.cfg 第三步：设置zookeeper节点标识第四步：搭建zookeeper集群在两个节点上按照上述步骤配置ZooKeeper，使阅读全文

posted @ 2016-12-15 14:03 邬家栋阅读(971) 评论(0) 推荐(0) 编辑

邬家栋

随笔分类 - Spark