摘要: Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns th 阅读全文
posted @ 2023-05-23 20:11 wangfan000 阅读(642) 评论(0) 推荐(0) 编辑
摘要: 在成体系的大数据开发的工作中,离不开元数据管理、数据整合、数据治理、数据质量管控等等。本篇文章从元数据是什么,为什么要有元数据,元数据分类,元数据管理等方面谈谈元数据。 [toc] ## 元数据是什么 要理解这个问题,首先要知道“元”是什么。 元数据意味着“有关数据的数据”。虽然“meta”前缀(来 阅读全文
posted @ 2023-05-23 16:10 wangfan000 阅读(704) 评论(0) 推荐(0) 编辑
摘要: 第0章 ETL简介 ETL (Extract-Transform-Load 的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少。 市面上常用的ETL工具有很多,比如Sqoop,DataX, Kettl 阅读全文
posted @ 2023-02-26 12:44 wangfan000 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 安装docker 下载网址:https://www.docker.com/products/docker-desktop/ 构建基础镜像 拉取centos镜像 docker pull centos:7.5.1804 创建文件夹,将jdk安装包放入,并配置Dockerfile文件 mkdir dock 阅读全文
posted @ 2022-11-06 00:28 wangfan000 阅读(534) 评论(0) 推荐(0) 编辑
摘要: 一、类别型特征 1)类别数在5个以下,可以直接根据类别来分箱 (binning_cate) 2)类别数在5个以上,建议做降基处理,再根据降基后的类别做分箱 def binning_cate(df, col, target): """ df:数据集 col:输入的特征 target:好坏标记的字段名 阅读全文
posted @ 2022-01-23 23:00 wangfan000 阅读(340) 评论(0) 推荐(0) 编辑
摘要: mysql基础知识笔记 0. 介绍和安装 0.1 介绍 RDBMS : 关系型数据库 ,代表产品: Oracle MySQL MSSQL PG NoSQL:非关系型的数据库,易拓展,大数据量,高性能,代表产品:MongoDB Redis ES NewSQL:不仅具有NoSQL对海量数据的存储管理能力 阅读全文
posted @ 2021-09-21 00:01 wangfan000 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 基础指令 下载 sudo apt-get install mongodb # docker容器中下载 docker image pull mongo:4.4.2 docker run -itd --name mongo -p 27017:27017 mongo:4.4.2 (--auth) # (开 阅读全文
posted @ 2021-09-20 22:52 wangfan000 阅读(65) 评论(0) 推荐(0) 编辑
摘要: 正则表达式 1.单个字符的匹配 re.findall(正则表达式,字符串) :把符合正则表达式的字符串存在列表中返回 1.1 预定义字符集 预定义字符集 作用 \d 匹配数字 \D 匹配非数字 \w 匹配字母数字下划线 \W 匹配非字母或数字或下划线 \s 匹配任意的空白符 (\n \t \r ' 阅读全文
posted @ 2021-09-19 12:31 wangfan000 阅读(65) 评论(0) 推荐(0) 编辑