摘要: Hive是一个数据仓库基础的应用工具,在Hadoop中用来处理结构化数据,通过类SQL语言对数据进行操作。Hive将sql语句通过解析器转换成MapReduce作业提交到Hadoop集群上,Hadoop监控作业执行过程,并将执行结果返回给用户。 值得注意的是,Hive并不支持行级数据的更新,主要使用 阅读全文
posted @ 2019-08-25 20:55 beyondChan 阅读(4346) 评论(0) 推荐(0) 编辑
摘要: 行内与独行 上标、下标与组合 汉字、字体与格式 占位符 定界符与组合 四则运算 高级运算 逻辑运算 集合运算 数学符号 来自链接1:https://www.jianshu.com/p/e74eb43960a1 链接2:https://blog.csdn.net/zhangziju/article/d 阅读全文
posted @ 2019-08-22 15:57 beyondChan 阅读(2019) 评论(0) 推荐(0) 编辑
摘要: 排序 缩写和包导入 在这个速查手册中,我们使用如下缩写: df:任意的Pandas DataFrame对象s:任意的Pandas Series对象 同时我们需要做如下的引入: import pandas as pdimport numpy as np 导入数据 pd.read_csv(filenam 阅读全文
posted @ 2019-08-22 15:43 beyondChan 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 1、apply、applymap、map 对数据进行处理的时候,使用循环往往会大大降低代码的执行效率,但是通过pandas中封装好的函数,则可以极大提升执行效率; DataFrame.apply(self, func, axis=0, broadcast=None, raw=False, reduc 阅读全文
posted @ 2019-08-20 13:18 beyondChan 阅读(847) 评论(0) 推荐(0) 编辑
摘要: 1、 lambda 在Python中,lambda函数的函数体有且仅有一条语句,即返回值的表达式语句,它比def简单许多。格式如下: 参数列表是可以选择的,如果有多个参数,就用逗号将这些参数隔开。函数返回值的表达式语句不能含有循环、分支、return语句或yield语句,但是允许使用条件表达式。la 阅读全文
posted @ 2019-06-19 23:11 beyondChan 阅读(609) 评论(0) 推荐(0) 编辑
摘要: 1、数据仓库概念与用途 数据仓库(Data Warehouse,简写DW)是一个数据库集合,存储大量的数据,主要为企业撰写分析报告与决策做支撑,对多样的业务数据进行筛选整合,为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。 数据仓库的输入方是各种各样的数据源,最 阅读全文
posted @ 2019-06-19 22:55 beyondChan 阅读(3924) 评论(0) 推荐(0) 编辑
摘要: 1、首先在所在系统中安装Anaconda。可以打开命令行输入conda -V检验是否安装以及当前conda的版本。 2、conda常用的命令。 1)conda list 查看安装了哪些包。 2)conda env list 或 conda info -e 查看当前存在哪些虚拟环境 3)conda u 阅读全文
posted @ 2019-06-12 16:50 beyondChan 阅读(28081) 评论(1) 推荐(1) 编辑
摘要: 单层索引index中,我们可以轻松通过df.loc[index]来获取某一行数据,多重索引是怎么样来实现的呢,下面进行介绍。 1、行多层索引 1 import pandas as pd 2 3 df = pd.DataFrame({'class':['A','A','A','B','B','B',' 阅读全文
posted @ 2019-05-26 23:18 beyondChan 阅读(38164) 评论(0) 推荐(0) 编辑
摘要: 在实际分析中,经常遇到连续值需要离散化,或者离散值需要哑元化的问题,下面将分别举例说明。 1、连续指标离散化 可以根据自己的需求划分不同的区间,然后使用pandas中cut()、qcut()函数来完成连续变量离散化操作。 2、离散指标哑元化 分类变量哑元化是指将分类变量转换成“哑变量矩阵”(dumm 阅读全文
posted @ 2019-05-26 23:05 beyondChan 阅读(4521) 评论(0) 推荐(0) 编辑
摘要: 集合是一种组合型的数据类型,分为可变的set和不可变的frozenset。 1、可变集合set 集合set是一种无序的、唯一的的元素集,与数学中集合的概念类似,可对其进行交、并、差、补等逻辑运算。不支持索引、切片等序列操作,但仍支持成员关系运算符in-not in、推导式等操作。在特定的场合中可以体 阅读全文
posted @ 2019-05-26 21:14 beyondChan 阅读(1051) 评论(0) 推荐(0) 编辑