上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 21 下一页
摘要: 什么是DataFrame 引用 r-tutor上的定义: DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。 没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体。而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎 阅读全文
posted @ 2017-03-01 17:07 holy_black_cat 阅读(3497) 评论(0) 推荐(0) 编辑
摘要: Standalone模式:Standalone模式运行的Spark集群对不同的应用程序采用先进先出(FIFO)的顺序进行调度。默认情况下每个应用程序会独占所有可用节点的资源。 现在版本的SparkR只能运行在standalone模式下 问题1:安装问题 由于R涉及到Fortran语言,要下载gcc- 阅读全文
posted @ 2017-03-01 17:06 holy_black_cat 阅读(596) 评论(0) 推荐(0) 编辑
摘要: 1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中?从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于Schem 阅读全文
posted @ 2017-03-01 17:05 holy_black_cat 阅读(9860) 评论(0) 推荐(0) 编辑
摘要: 由于装的sparkr是1.4版本的,老版本的很多函数已经不再适用了。 在2台服务器的组成的集群中测试了一版数据,熟悉下这个api的基本操作。​ libpath <- .libPaths() libpath <- c(libpath, "/home/r/spark/spark-1.4.0-bin-ha 阅读全文
posted @ 2017-03-01 17:02 holy_black_cat 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等函数进一步分离强化, 专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数 阅读全文
posted @ 2017-03-01 17:00 holy_black_cat 阅读(615) 评论(0) 推荐(0) 编辑
摘要: apply函数(对一个数组按行或者按列进行计算): 使用格式为: apply(X, MARGIN, FUN, ...) 其中X为一个数组;MARGIN为一个向量(表示要将函数FUN应用到X的行还是列),若为1表示取行,为2表示取列,为c(1,2)表示行、列都计算。示例代码:> ma <- matri 阅读全文
posted @ 2017-03-01 16:59 holy_black_cat 阅读(2262) 评论(0) 推荐(0) 编辑
摘要: 在实际应用中,经常需要实现在一个查询语句中显示多张表的数据,这就是所谓的多表数据记录连接查询,简称来年将诶查询。 在具体实现连接查询操作时,首先将两个或两个以上的表按照某个条件连接起来,然后再查询到所要求的数据记录。连接查询分为内连接查询和外连接查询。 在具体应用中,如果需要实现多表数据记录查询,一 阅读全文
posted @ 2017-03-01 16:58 holy_black_cat 阅读(639) 评论(0) 推荐(0) 编辑
摘要: 9.3. 用户变量 可以先在用户变量中保存值然后在以后引用它;这样可以将值从一个语句传递到另一个语句。用户变量与连接有关。也就是说,一个客户端定义的变量不能被其它客户端看到或使用。当客户端退出时,该客户端连接的所有变量将自动释放。 用户变量的形式为@var_name,其中变量名var_name可以由 阅读全文
posted @ 2017-03-01 16:54 holy_black_cat 阅读(22662) 评论(0) 推荐(3) 编辑
摘要: 作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala。R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server;而用户日志主要储存在hive中,因此用HiveQL写job也是日常工作之一;当然R的执行效率确实不靠谱,因此还需要Java(El 阅读全文
posted @ 2017-03-01 16:51 holy_black_cat 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 先言:R语言常用界面操作 帮助:help(nnet) = ?nnet =??nnet 清除命令框中所有显示内容:Ctrl+L 清除R空间中内存变量:rm(list=ls())、gc() 获取或者设置当前工作目录:getwd、setwd 保存指定文件或者从磁盘中读取出来:save、load 读入、读出 阅读全文
posted @ 2017-03-01 16:50 holy_black_cat 阅读(7254) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 21 下一页