上一页 1 2 3 4 5 6 7 8 ··· 14 下一页

Spark中的RDD和DataFrame

摘要: 什么是DataFrame 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。 RDD和DataFrame的区别 DataFrame与RDD的主要区别在于,DataFrame带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有 阅读全文
posted @ 2020-02-08 16:42 哈萨K 阅读(502) 评论(0) 推荐(0) 编辑

大三寒假生活11

摘要: 今天完成了之前欠下的实验四的第三个,知道了scala中的partitionBy和groupByKey().还有其他的一些知识,eclipse又遇到了一些破问题。明天完成实验五并开始实验六,感觉进度有点慢,有时间在学点Python的知识,抓紧时间完成大作业。 实验: 3.编写独立应用程序实现求平均值问 阅读全文
posted @ 2020-02-07 21:24 哈萨K 阅读(214) 评论(0) 推荐(0) 编辑

大三寒假生活10

摘要: 今天学习的时间不多,整了半天eclipse之后全盘崩溃,回到昨天的原点。然后学习了scala的一些知识。实验没有进展,明天继续搞eclipse和实验。 1、eclipse启动报错:java.lang.AssertionError: assertion failed This is a continu 阅读全文
posted @ 2020-02-06 18:17 哈萨K 阅读(121) 评论(0) 推荐(0) 编辑

scala中符号的意思

摘要: 1. => 定义函数, xxx => yyy 左边是函数变量,右边是函数返回值 2. <- 遍历中的<- 将变量赋给索引 for( i <- arrs ) 3. -> ->方法是所有Scala对象都有的方法,返回一个二元的元组(A,B) scala> 1 -> 2 res9: (Int, Int) 阅读全文
posted @ 2020-02-05 21:23 哈萨K 阅读(193) 评论(0) 推荐(0) 编辑

Spark API 之 map、mapPartitions、mapValues、flatMap、flatMapValues详解

摘要: 原文地址:https://blog.csdn.net/helloxiaozhe/article/details/80492933 1、创建一个RDD变量,通过help函数,查看相关函数定义和例子: >>> a = sc.parallelize([(1,2),(3,4),(5,6)]) >>> a P 阅读全文
posted @ 2020-02-05 21:22 哈萨K 阅读(688) 评论(0) 推荐(0) 编辑

大三寒假生活9

摘要: 今天实验没有往下进行,搞了一下午的eclipse,然后学习了一些scala的知识。明天继续弄实验和eclipse。 eclipse报错Could not get the value for parameter encoding for plugin execution default-resourc 阅读全文
posted @ 2020-02-05 21:16 哈萨K 阅读(103) 评论(0) 推荐(0) 编辑

大三寒假生活8

摘要: 今天完成了实验五的第一个,熟悉了Spark SQL 基本操作,在安装插件的时候也遇到了以下的问题 首先是在弄scala插件的时候,当scala安装成功后报错 1、Could not create the view: org.apache.hadoop.eclipse.view.servers 然后e 阅读全文
posted @ 2020-02-04 22:06 哈萨K 阅读(173) 评论(0) 推荐(0) 编辑

大三寒假生活7

摘要: 今天你完成实验四前两个实验。但是!!!在跟eclipse的scala插件做斗争的时候,把hadoop的插件给搞没了,按着林子雨老师的教程走了一遍还是不行,不知不觉又搞了一下午,还是没解决。明天把实验四完成,做一些实验五,希望明天可以把eclipse的问题解决。 1.spark-shell 交互式编程 阅读全文
posted @ 2020-02-03 21:42 哈萨K 阅读(182) 评论(0) 推荐(0) 编辑

大三寒假生活6

摘要: 今天完成了实验三,跟着实验三把hadoop的内容复习了一下,还学习了spark的相关内容,但是还是没有战胜eclipse,明天继续奋战,并进行实验四。 (1)在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; $ cd 阅读全文
posted @ 2020-02-02 21:40 哈萨K 阅读(210) 评论(0) 推荐(0) 编辑

大三寒假生活5

摘要: 今天继续学习了scala的相关知识。 经过一下午的时间,把windows中eclipse的maven和scala插件成功安装上了,但是Linux中的eclipse却安装不上,经过查询,初步判断是eclipse的版本太低,导致maven插件安装失败。于是对Linux中的eclipse进行了更新,但一下 阅读全文
posted @ 2020-02-01 20:35 哈萨K 阅读(159) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 14 下一页