随笔分类 - Hadoop
摘要:1. pandas:数据分析类库基于NumPy,为了解决数据分析任务而创建的工具。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。Pandas最初被作为金融数据分析工具而开发,为时间序列分析提供了很好的支持。panel data是经济学中
阅读全文
摘要:数据仓库 在实际工作中,数仓分层、元数据管理、数据质量管理一直是一个持续优化的过程,我们公司业务也是在持续的做数仓的优化工作,在数据治理这方面还是欠缺很多的经验的。下面先简单整理了一下第一个理论部分的相关笔记。 一、数据仓库理论(1)数据仓库四大特征面向主题:较高层次上企业信息系统中的数据综合、归类
阅读全文
摘要:************************************************************************************第一阶段:基础学习 1、计算机基础知识(4颗星)作为一个计算机从业者,首先必须具备相应的计算机基础知识,包括: 操作系统知识计算机网
阅读全文
摘要:核心问题:存储和计算核心组件:Hadoop Common(通用数据结构):一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC 和持久化数据结构)。Hadoop Distributed FileSystem(HDFS:Hadoop分布式文件系统):HDFS是存储数据的地方,就像我们电
阅读全文