上一页 1 ··· 8 9 10 11 12 13 14 下一页
摘要: import numpy as np a = np.array([1,2,3],dtype=np.int32) --定义元素类型 float print(a.dtype) arr = np.array([[1,2,3],[4,5,6]]) --生成全部为0,1的矩阵 a = np.zeros((3, 阅读全文
posted @ 2020-02-28 16:44 一只竹节虫 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 常用的数据分析方法包括以下13种: 1. 描述统计 描述性统计是指运用制表和分类,图形以及计算概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 2. 假设检验 参数检验 参数检验主要包括U验和T检验 1)U验 使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验 使用条件:当样本含量n 阅读全文
posted @ 2020-02-25 10:28 一只竹节虫 阅读(214) 评论(0) 推荐(0) 编辑
摘要: DROP时 内部表:元数据和数据本是都由HIVE自己掌控,内部表被删除后元数据和HDSF上的数据文件都将被删除,一般 外部表:外部表只删除元数据,不删除路径下的文件,重新创建该路径下的表时可以恢复数据 LOAD加载数据时 内部表:会把数据移动到自己指定的路径下 外部表:会把数据移动到自己指定的路径之 阅读全文
posted @ 2020-01-04 11:13 一只竹节虫 阅读(534) 评论(0) 推荐(0) 编辑
摘要: 一、概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统 导出数据:从 Hadoop 的文件系 阅读全文
posted @ 2020-01-04 11:06 一只竹节虫 阅读(520) 评论(0) 推荐(0) 编辑
摘要: ETL是什么ETL是Extract Transform Load三个英文单词的缩写 中文意思就是抽取、转换、加载。说到ETL就必须提到数据仓库。 那么怎么把数据弄到数据仓库里去呢,其中用到的一个技术就是ETL。 下面给下ETL的详细解释定义:ETL(Extract-Transform-Load的缩写 阅读全文
posted @ 2019-12-26 15:23 一只竹节虫 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 回到顶部 2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 回到顶部 阅读全文
posted @ 2019-12-25 17:38 一只竹节虫 阅读(152) 评论(0) 推荐(0) 编辑
摘要: LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) 与LAG相反 LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值 第一个参 阅读全文
posted @ 2019-12-25 17:06 一只竹节虫 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 1、Hive支持的一些命令 退出使用quit或exit离开交互式外壳。 set key = value使用它来设置特定配置变量的值。 这里要注意的一件事是,如果您对变量名拼写错误,cli将不会显示错误。 set这将打印由用户或配置单元覆盖的配置变量列表。 set -v这将打印所有hadoop和hiv 阅读全文
posted @ 2019-12-24 20:53 一只竹节虫 阅读(1117) 评论(0) 推荐(0) 编辑
摘要: SUM--sum(汇总字段) over (partition by 分组字段 order by 排序字段) 如果不指定ROWS BETWEEN,默认为从起点到当前行;如果不指定ORDER BY,则将分组内所有值累加;关键是理解ROWS BETWEEN含义,也叫做WINDOW子句:PRECEDING: 阅读全文
posted @ 2019-12-24 20:13 一只竹节虫 阅读(1391) 评论(0) 推荐(0) 编辑
摘要: 版本控制器的作用: 1. 可以协同代码管理,让多人开发代码得以实现。 2. 回归到以前的任何一个时间点的代码处(好比:开始写了很多代码,后面有修改了一些,突然IDE崩溃,但是发现还是以前的代码更好,这个时候无法回去,这个时候没有后悔药吃,但是可以使用版本备份,但是即花费空间和花费时间)。 3. 由于 阅读全文
posted @ 2019-12-24 17:28 一只竹节虫 阅读(606) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 下一页