随笔分类 -  Hadoop

摘要: 阅读全文
posted @ 2023-01-31 09:02 咪嗞哈嘻 阅读(13) 评论(0) 推荐(0) 编辑
摘要:1. pandas:数据分析类库基于NumPy,为了解决数据分析任务而创建的工具。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。Pandas最初被作为金融数据分析工具而开发,为时间序列分析提供了很好的支持。panel data是经济学中 阅读全文
posted @ 2023-01-31 09:00 咪嗞哈嘻 阅读(149) 评论(0) 推荐(0) 编辑
摘要:数据仓库 在实际工作中,数仓分层、元数据管理、数据质量管理一直是一个持续优化的过程,我们公司业务也是在持续的做数仓的优化工作,在数据治理这方面还是欠缺很多的经验的。下面先简单整理了一下第一个理论部分的相关笔记。 一、数据仓库理论(1)数据仓库四大特征面向主题:较高层次上企业信息系统中的数据综合、归类 阅读全文
posted @ 2023-01-31 09:00 咪嗞哈嘻 阅读(284) 评论(0) 推荐(0) 编辑
摘要:************************************************************************************第一阶段:基础学习 1、计算机基础知识(4颗星)作为一个计算机从业者,首先必须具备相应的计算机基础知识,包括: 操作系统知识计算机网 阅读全文
posted @ 2023-01-31 08:59 咪嗞哈嘻 阅读(25) 评论(0) 推荐(0) 编辑
摘要:核心问题:存储和计算核心组件:Hadoop Common(通用数据结构):一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC 和持久化数据结构)。Hadoop Distributed FileSystem(HDFS:Hadoop分布式文件系统):HDFS是存储数据的地方,就像我们电 阅读全文
posted @ 2023-01-31 08:58 咪嗞哈嘻 阅读(51) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示