2017Crown

2017年8月22日

摘要： RDDs的基本特性 1.延迟计算 Spark对RDDs的计算是当他们第一次使用Action操作的时候。这种方式在处理大数据时很有用，可以减少数据的传输。 Spark内部记录了metadata表来表明transformation操作是否已经被相应，metadata中只记录已经被相应的Transform 阅读全文

posted @ 2017-08-22 22:17 2017Crown 阅读(644) 评论(0) 推荐(0)

Spark基本概念

摘要： Spark基本概念 1.SparkContent a.Driver programs通过SparkContent对象访问Spark b.SparkContent代表和一个集群的链接 c.在shell中SparkContent对象自动创建好了，就是sc 2.Spark中的Shell 主要分为两种：py 阅读全文

posted @ 2017-08-22 11:35 2017Crown 阅读(758) 评论(0) 推荐(0)

2017年8月16日

hive基本操作

摘要： 1.创建表（1）创建内部表内部表：和数据库中的table基本一致，可直接理解为数据仓库中真实存在的表。 a.每个table在hive中都有一个相应的目录存储数据（hive数据仓库文件存储在一般在HDFS的‘/user/hive/warehouse下，warehouse文件夹下的文件夹名即为表名’ 阅读全文

posted @ 2017-08-16 16:02 2017Crown 阅读(172) 评论(0) 推荐(0)

2017年8月15日

pandas数据清洗相关

摘要： 1.常用的数据操作函数 1.df.dtypes 查看各列数据类型函数用法：df.dtypes 注意：输入df只能是DataFrame不能是一列，如df['time'] 2.astype 将某一列转换为指定类型函数用法：df['columns']=df['column'].astype('type 阅读全文

posted @ 2017-08-15 10:22 2017Crown 阅读(236) 评论(0) 推荐(0)

2017年8月10日

hadoop安装和基本知识

摘要：安装教程：/home/yu/develop/hadoop-2.7.1/bin:/home/yu/develop/hadoop-2.7.1/sbin hadoop组成 hadoop主要包括HDFS系统和MapReduce两个部分。 HDFS文件系统 hdfs文件系统特点：1.数据冗余，硬件容错 2.流阅读全文

posted @ 2017-08-10 22:19 2017Crown 阅读(196) 评论(0) 推荐(0)

2017年8月9日

workbench安装过程

摘要：目前环境: ubuntu14.04 1.首先安装mongodb,python,g++等 2.接下来安装libssl。注意：此处与官方文档存在不同安装会遇到的几个问题： 1.安装时在一个和pip有关的文件卡住不动 pip版本过低，升级到pip9.0.1问题解决。首先到官网下载pip9.0.1.ta 阅读全文

posted @ 2017-08-09 20:34 2017Crown 阅读(738) 评论(0) 推荐(0)

2017年8月1日

docker使用

摘要：使用docker步骤：先下载要使用的镜像文件 ——> 利用该镜像文件创建容器——>对该容器的内容根据自己需要进行更新进行——>提交该容器生成的新镜像对原镜像进行更新 1.启动交互式启动容器进入容器内交互模式：后台模式启动容器后台启动容器，返回容器Id：可附加属性：-P，表示将容器内部使用的阅读全文

posted @ 2017-08-01 22:04 2017Crown 阅读(217) 评论(0) 推荐(0)

2017年7月28日

DataFrame.groupby()简析

摘要： groupby分组函数：返回值：返回重构格式的DataFrame，特别注意，groupby里面的字段内的数据重构后都会变成索引 groupby(),一般和sun()一起使用，如下例： from pandas import Series,DataFrame a=[['Li','男','PE',98. 阅读全文

posted @ 2017-07-28 11:55 2017Crown 阅读(19023) 评论(0) 推荐(0)

2017年7月25日

ubuntu桌面版初学者常用快捷键

摘要：本文针对刚刚从Windows转入linux系统的初学者。 1.ctrl+sqpace 切换输入法 2.ctrl+alt+t 运行命令行终端 3.ctrl+d 退出，在普通用户下按会直接退出终端，在root下按会直接退出root用户返回但普通用户 4.ctrl+c 强制停止当前运行的程序 5.tab+ 阅读全文

posted @ 2017-07-25 14:57 2017Crown 阅读(1065) 评论(0) 推荐(0)

2017年7月18日

OSI七层与TCP/IP五层网络架构详解

摘要：阅读全文

posted @ 2017-07-18 11:52 2017Crown 阅读(124) 评论(0) 推荐(0)

公告