摘要: RDDs的基本特性 1.延迟计算 Spark对RDDs的计算是当他们第一次使用Action操作的时候。这种方式在处理大数据时很有用,可以减少数据的传输。 Spark内部记录了metadata表来表明transformation操作是否已经被相应,metadata中只记录已经被相应的Transform 阅读全文
posted @ 2017-08-22 22:17 2017Crown 阅读(625) 评论(0) 推荐(0) 编辑
摘要: Spark基本概念 1.SparkContent a.Driver programs通过SparkContent对象访问Spark b.SparkContent代表和一个集群的链接 c.在shell中SparkContent对象自动创建好了,就是sc 2.Spark中的Shell 主要分为两种:py 阅读全文
posted @ 2017-08-22 11:35 2017Crown 阅读(692) 评论(0) 推荐(0) 编辑
摘要: 1.创建表 (1)创建内部表 内部表:和数据库中的table基本一致,可直接理解为数据仓库中真实存在的表。 a.每个table在hive中都有一个相应的目录存储数据(hive数据仓库文件存储在一般在HDFS的‘/user/hive/warehouse下,warehouse文件夹下的文件夹名即为表名’ 阅读全文
posted @ 2017-08-16 16:02 2017Crown 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 1.常用的数据操作函数 1.df.dtypes 查看各列数据类型 函数用法:df.dtypes 注意:输入df只能是DataFrame不能是一列,如df['time'] 2.astype 将某一列转换为指定类型 函数用法:df['columns']=df['column'].astype('type 阅读全文
posted @ 2017-08-15 10:22 2017Crown 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 安装教程:/home/yu/develop/hadoop-2.7.1/bin:/home/yu/develop/hadoop-2.7.1/sbin hadoop组成 hadoop主要包括HDFS系统和MapReduce两个部分。 HDFS文件系统 hdfs文件系统特点:1.数据冗余,硬件容错 2.流 阅读全文
posted @ 2017-08-10 22:19 2017Crown 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 目前环境: ubuntu14.04 1.首先安装mongodb,python,g++等 2.接下来安装libssl。 注意:此处与官方文档存在不同 安装会遇到的几个问题: 1.安装时在一个和pip有关的文件卡住不动 pip版本过低,升级到pip9.0.1问题解决。首先到官网下载pip9.0.1.ta 阅读全文
posted @ 2017-08-09 20:34 2017Crown 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 使用docker步骤:先下载要使用的镜像文件 ——> 利用该镜像文件创建容器——>对该容器的内容根据自己需要进行更新进行——>提交该容器生成的新镜像对原镜像进行更新 1.启动 交互式启动容器 进入容器内交互模式: 后台模式启动容器 后台启动容器,返回容器Id: 可附加属性:-P,表示将容器内部使用的 阅读全文
posted @ 2017-08-01 22:04 2017Crown 阅读(200) 评论(0) 推荐(0) 编辑
摘要: groupby分组函数: 返回值:返回重构格式的DataFrame,特别注意,groupby里面的字段内的数据重构后都会变成索引 groupby(),一般和sun()一起使用,如下例: from pandas import Series,DataFrame a=[['Li','男','PE',98. 阅读全文
posted @ 2017-07-28 11:55 2017Crown 阅读(18957) 评论(0) 推荐(0) 编辑
摘要: 本文针对刚刚从Windows转入linux系统的初学者。 1.ctrl+sqpace 切换输入法 2.ctrl+alt+t 运行命令行终端 3.ctrl+d 退出,在普通用户下按会直接退出终端,在root下按会直接退出root用户返回但普通用户 4.ctrl+c 强制停止当前运行的程序 5.tab+ 阅读全文
posted @ 2017-07-25 14:57 2017Crown 阅读(1036) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-07-18 11:52 2017Crown 阅读(111) 评论(0) 推荐(0) 编辑