摘要: 数据建模和可视化是大规模数据分析解决方案支持的商业智能 (BI) 工作负载的核心。 从本质上讲,数据可视化为报告和决策提供支持,帮助组织取得成功。 在本模块中,你将了解分析数据建模和数据可视化的基本原则,使用 Microsoft Power BI 作为平台来在操作中探索这些原则。 介绍 Power 阅读全文
posted @ 2024-02-27 22:35 星宇SKY 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 个人、公司和其他组织对技术的使用的增加,以及智能设备和 Internet 访问的激增,导致可生成、捕获和分析的数据量大幅增加。 这些数据中的大部分数据都可以作为永久数据流实时(或至少是准实时)进行处理,从而创建显示即时见解和趋势或在事件发生时立即采取响应操作的系统。 了解批处理和流处理 数据处理就是 阅读全文
posted @ 2024-02-27 22:19 星宇SKY 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 描述数据仓库体系结构 大规模数据分析体系结构可能各不相同,用于实现它们的特定技术也有所不同,但一般情况下会包括以下元素: 数据引入和处理 将一个或多个事务数据存储、文件、实时流或其他源中的数据加载到数据湖或关系数据仓库。 加载操作通常涉及以下操作:提取、转换和加载 (ETL) 或提取、加载和转换 ( 阅读全文
posted @ 2024-02-27 11:32 星宇SKY 阅读(43) 评论(0) 推荐(0) 编辑
摘要: Azure 上的数据工程简介 在大多数组织中,数据工程师是负责以下工作的主要角色:将各种结构化和非结构化数据系统中的数据集成、转换和合并到适合构建分析解决方案的结构中。 在给定一组特定的业务要求和约束的情况下,Azure 数据工程师还有助于确保数据管道和数据存储是高性能、高效、有组织的和可靠的。 什 阅读全文
posted @ 2024-02-06 11:09 星宇SKY 阅读(10) 评论(0) 推荐(0) 编辑
摘要: # 1. 机器学习定义 > Field of study that gives computers the ability to learn without being explicitly programmed. -- Arthur Samuel(1959) ![](https://img2023 阅读全文
posted @ 2023-06-08 18:46 星宇SKY 阅读(21) 评论(0) 推荐(0) 编辑
摘要: # 3.1 线性回归 回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。 在自然科学和社会科学领域,回归经常用来表示输入和输出之间的关系。 ## 3.1.1 线性回归的基本元素 这一部分主要是各种原理及公式,还是需要直接去阅读全文~ 总结部分要点如下: 1. 线性回归 阅读全文
posted @ 2023-05-30 21:16 星宇SKY 阅读(67) 评论(0) 推荐(0) 编辑
摘要: 在从事数据分析/处理过程中,Jupyter Lab 是一个常见且便捷的工具,它属于 Jupyter Notebook 的升级版本。 除了可以在本机搭建 Jupyter 环境,它还支持通过网络远程访问,从而实现在本地编写查看代码,在远程服务器上运行代码的功能。 ## 需求背景 我日常使用的是一台 M1 阅读全文
posted @ 2023-05-30 19:45 星宇SKY 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 处理文本数据时,常见的存储格式为 textfile 格式,对应行分隔符为"\n",列分隔符为"\t"。 而大家往往不会直接使用txt格式文件进行日常操作,Excel 更为简便通用。 因此,如果我们需要处理的 Excel 数据中,某个取值内出现了"\t"或"\n"或"\r\n"符号,转为 txt 格式 阅读全文
posted @ 2023-05-22 14:44 星宇SKY 阅读(661) 评论(0) 推荐(0) 编辑
摘要: 如果需要插入数据到同一分区表的多个分区,除了可以手动指定分区,还可以使用动态分区的方法进行插入。 需要在插入语句前加上: ``` set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nostrict; 阅读全文
posted @ 2022-10-08 15:10 星宇SKY 阅读(839) 评论(0) 推荐(0) 编辑
摘要: ArcGIS 是一款GIS信息的软件,它的数据中包含一些公开的地理位置信息,如不同区域水系、公园的电子围栏,以 shp 文件保存。 # GeoPandas 包安装 这次我们需要的提取 shp 文件中包含的电子围栏信息,需要使用到 GeoPandas 包进行解析提取。 官方建议我们使用 conda 进 阅读全文
posted @ 2022-08-08 16:04 星宇SKY 阅读(664) 评论(0) 推荐(0) 编辑