01 2023 档案
摘要:import osimport datetimefrom glob2 import globfrom ntpath import relpathimport errno# from MyTest3 import file# from MyTest3 import configclass Handle
阅读全文
摘要:import datetimeclass DBClient(object): ''' classdocs ''' imp_module = "cx_Oracle" connection = None cursor = None conn_str = '' exec_params = {} enabl
阅读全文
摘要:import osimport sysimport datetimefrom DBClient import DBClientfrom HandleFileClass import HandleFileClassfrom importlib import import_modulefrom sqla
阅读全文
摘要:1、WHERE与HAVING区别:——都可过滤数据 1、执行顺序不同:汇总查询时,WHERE在GROUP BY前执行,HAVING在GROUP BY后执行。 2、过滤条件不同:HAVING中可使用聚合函数,WHERE中不可以使用聚合函数。且WHERE的条件可以在HAVING中,反之不成立。 3、使用
阅读全文
摘要:Tableau 1、Tableau安装包链接:https://pan.baidu.com/s/1K8i5NWHF58JFHcV_p8RORA?pwd=xing提取码:xing 2、相关资源我们这里采取替换tabui.dll文件就行,刚刚入门的可以采取这种方式来学习一下。帮助文档手册下载: https
阅读全文
摘要:一,什么是数据库分区 前段时间写过一篇关于mysql分表的的文章,下面来说一下什么是数据库分区,以mysql为例。mysql数据库中的数据是以文件的形势存在磁盘上的,默认放在/mysql/data下面(可以通过my.cnf中的datadir来查看),一张表主要对应着三个文件,一个是frm存放表结构的
阅读全文
摘要:资料来源:https://baijiahao.baidu.com/s?id=1716481856789644662&wfr=spider&for=pc一文搞懂:离线数据、实时数据究竟该如何选择 在业务分析过程中,你应该选择实时数据还是离线数据?这需要依据业务场景来进行判断,不能盲目选择。那么,二者的
阅读全文
摘要:好多同学对sql的优化好像是知道的甚少,最近总结了以下34条仅供参考。 (1)选择最有效率的表名顺序(只在基于规则的优化器中有效): ORACLE的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表(基础表 driving table)将被最先处理,在FROM子句中包含多个
阅读全文
摘要:1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null可以在n
阅读全文
摘要:(1)SparkSQL电子书:http://marsishandsome.github.io/SparkSQL-Internal/ (来源:https://www.zhihu.com/question/31427697)(2)B站入门视频:https://www.bilibili.com/video
阅读全文
摘要:作者:五分钟学大数据链接:https://www.zhihu.com/question/31427697/answer/2204776776 1. Spark 的运行流程?<img src="https://pic3.zhimg.com/50/v2-b34da00bc67564b8e3289757d
阅读全文
摘要:https://blog.csdn.net/weixin_39032019/article/details/120239321?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165762280716782425136365%2522%
阅读全文
摘要:数据中台 一、数仓分层1.1分层概念 ods:原始数据层,存放原始数据。 dwd:明细数据层,对原始数据进行清洗,如去空值、日期格式转换、数据脱敏、脏数据处理等。 dws:数据服务层,对明细数据层进行轻度汇总。 dwt:数据主题层,以dws层为基础,进行数据累积汇总。 ads:数据应用层,为数据应用
阅读全文
摘要:数据建模方法论及实施步骤 了解数据建模之前首先要知道的是什么是数据模型。数据模型(Data Model)是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架。 一、概要:数据建模简介 数据基本用于两种目的:1、操作型记录的保存2、分
阅读全文
摘要:1. pandas:数据分析类库基于NumPy,为了解决数据分析任务而创建的工具。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。Pandas最初被作为金融数据分析工具而开发,为时间序列分析提供了很好的支持。panel data是经济学中
阅读全文
摘要:数据仓库 在实际工作中,数仓分层、元数据管理、数据质量管理一直是一个持续优化的过程,我们公司业务也是在持续的做数仓的优化工作,在数据治理这方面还是欠缺很多的经验的。下面先简单整理了一下第一个理论部分的相关笔记。 一、数据仓库理论(1)数据仓库四大特征面向主题:较高层次上企业信息系统中的数据综合、归类
阅读全文
摘要:************************************************************************************第一阶段:基础学习 1、计算机基础知识(4颗星)作为一个计算机从业者,首先必须具备相应的计算机基础知识,包括: 操作系统知识计算机网
阅读全文
摘要:核心问题:存储和计算核心组件:Hadoop Common(通用数据结构):一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC 和持久化数据结构)。Hadoop Distributed FileSystem(HDFS:Hadoop分布式文件系统):HDFS是存储数据的地方,就像我们电
阅读全文
摘要:**一、ETL定义 **ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 二、ETL算法导图 三、算法应用场景这8种ETL算法,其中主要分成4大类,增量累加、拉链算法是更符合数据仓库历史数据追踪的算
阅读全文
摘要:1图表————二次开发1.1图表样式自定义————标题/标签/提示/坐标轴1.1.1标题 图表->样式->标题->文本:<font color='#00AEFF'>图表1</font>表名 方式:HTML(注:使用html解析文本内容,不可使用报表公式) 导出限制: 仅支持标签:<b>、<stron
阅读全文
摘要:'''Number: int\float\bool\complex 注:不可改变 type()\isinstance()认为子类是一种父类。 python3以后bool是int子类,True=1,False=0 判断:1 is True 四则运算:+、-、*、/(得浮点数)、//(得整数,注意不是整
阅读全文