网站更新内容:请访问: https://bigdata.ministep.cn/
摘要: 数仓分层都分哪些层? 一般来说,数据仓库我们可以分为如下5层: 关于数仓分层,不同的公司分的层数是不一样的,并且数仓的每一层的命名也没有一个统一的标准,比如这一层就叫这个名字,但是整体思想是一样的。 ODS层: 用于存放原始数据,数据不做任何修改,所以这相当于起到一个备份作用。因为在数仓建设当中,数 阅读全文
posted @ 2023-03-07 23:29 ministep88 阅读(152) 评论(0) 推荐(0) 编辑
摘要: Python 发送邮件可以使用标准库 smtplib,但是那个库使用起来比较麻烦。下面介绍一个第三方库:yagmail,发送邮件简直不能更方便。首先进行安装,直接 pip install yagmail 即可。 如果你要发送邮件,首先你必须要有一个邮箱,然后开启SMTP服务,并拿到相应的授权码。 这 阅读全文
posted @ 2023-03-07 23:28 ministep88 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 喜欢这篇文章的话,就点个关注吧,或者关注一下我的公众号也可以,会持续分享高质量Python文章,以及其它相关内容。:点击查看公众号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 # K近邻,适用于小型数据集,是很好的基准模型, 阅读全文
posted @ 2023-03-07 23:27 ministep88 阅读(36) 评论(0) 推荐(0) 编辑
摘要: sklearn中的算法可以分为如下几部分 分类算法 回归算法 聚类算法 降维算法 模型优化 文本预处理 其中分类算法和回归算法又叫做监督学习,聚类算法和降维算法又叫做非监督学习。 1.分类算法 KNN算法 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 阅读全文
posted @ 2023-03-07 23:26 ministep88 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 楔子 SQL 是每个开发人员都应该掌握的,很多人可能觉得 SQL 没啥大不了的,但是说真的,SQL要是写好了,是很厉害的。下面我们来从零开始学习SQL。 基本概念 正如 Linux 中一切皆文件,Python中一切皆对象,SQL(Structured Query Language,结构化查询语言)中 阅读全文
posted @ 2023-03-07 23:25 ministep88 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 楔子 如果使用 Python 爬虫,那么首先想到的就是 requests,requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 Requests 允许你发送纯天然、植物饲养的 HTTP/1.1 请求,无需手工劳动。你不需要手动为 URL 添加查询字串,也不需要对 P 阅读全文
posted @ 2023-03-07 23:24 ministep88 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 什么是 supervisor supervisor 是一个用 Python 语言编写的进程管理工具,它可以很方便的监听、启动、停止、重启一个或多个进程。当一个进程意外被杀死,supervisor 监听到进程死后,可以很方便地让进程自动恢复,不再需要程序猿或系统管理员自己编写代码来控制。 安装 sup 阅读全文
posted @ 2023-03-07 23:22 ministep88 阅读(958) 评论(0) 推荐(0) 编辑
摘要: 楔子 查询是数据库中最常见的操作,所以我们先来了解一下基本的查询语句。再次强调:后续所有的 SQL 语句默认都适用于 4 种数据库,某些数据库专用的语法将会进行特殊说明。 关于表,我们下面使用的表结构如下,表名叫做 staff: 字段查询 在 staff 表中,存储了员工的信息,我们现在要查找 id 阅读全文
posted @ 2023-03-07 23:22 ministep88 阅读(108) 评论(0) 推荐(0) 编辑
摘要: shutil 模块介绍 shutil 模块是 Python 内置的对文件、目录、压缩文件进行高级操作的模块,该模块对文件的复制、删除和压缩等操作都提供了非常方便的支持。 在使用 shutil 模块时,不能复制所有文件的元数据。在 POSIX 平台上不能复制文件的所有者和组、以及访问控制表;在 mac 阅读全文
posted @ 2023-03-07 23:21 ministep88 阅读(927) 评论(0) 推荐(0) 编辑
摘要: 楔子 我们之前学习了如何使用 SELECT 和 FROM 查询表中的数据,不过在实际应用中通常并不需要返回表中的全部数据,而只需要找出满足某些条件的结果。比如,某个部门中的员工或者某个产品最近几天的销售情况,在 SQL 中,可以通过查询条件实现数据的过滤。 查询条件 在 SQL 语句中,使用关键字 阅读全文
posted @ 2023-03-07 23:20 ministep88 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 楔子 SQL 语句主要的功能就是对数据进行处理和分析。为了避免重复造轮子,提高数据处理的效率,SQL 为我们提供了许多标准的功能模块:函数(Function)。 SQL 函数是一种具有某种功能的模块,可以接收零个或多个输入值,并且返回一个输出值。 在 SQL 中,函数主要分为两种类型: 标量函数(s 阅读全文
posted @ 2023-03-07 23:19 ministep88 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 楔子 上次我们介绍了 SQL 中常见的字符函数,学习了如何对文本数据进行连接、大小写转换、子串的查找和替换等处理。下面我们继续讨论常见的日期和时间函数,以及不同数据类型之间的转换函数。 日期和时间的存储 在数据库中,日期时间类型存在 3 种形式: DATE,日期类型,包含年、月、日。可以用于存储出生 阅读全文
posted @ 2023-03-07 23:18 ministep88 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 1.基本使用 import numpy as np import matplotlib.pyplot as plt import pandas as pd # 生成一系列x x = np.linspace(-1, 1, 50) # 生成对应的y y1 = 2 * x +1 y2 = x ** 2 # 阅读全文
posted @ 2023-03-07 23:17 ministep88 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 在使用pandas的时候,经常要对DataFrame的某一列进行操作,一般都会使用df["xx"].str下的方法,但是都有哪些方法呢?我们下面来罗列并演示一下。既然是df["xx"].str,那么xx这一列必须是字符串类型,当然在pandas里面是object,不能是整形、时间类型等等。如果想对这 阅读全文
posted @ 2023-03-07 23:16 ministep88 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 我们使用pandas经常会用到其下面的一个类:Series,那么这个类都有哪些方法呢?另外Series和DataFrame都继承了NDFrame这个类,df.to_sql()这个方法其实就是NDFrame下面的方法。这三个类是我们要介绍的核心,下面先来介绍Series。 创建Series impor 阅读全文
posted @ 2023-03-07 23:15 ministep88 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 介绍 urllib.parse是为urllib包下面的一个模块,urllib的其它模块完全可以使用requests替代。但是urlli.parse我们是有必要了解的,因为该模块下面有很多操作url路径的方法 urlparse:拆分url from urllib import parse url = 阅读全文
posted @ 2023-03-07 23:14 ministep88 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 从本节开始我们将会学习进阶内容。进阶内容将会介绍更加复杂的多表查询、子查询、集合运算以及各种高级的数据分析技术,能够让我们真正体会到 SQL 数据处理和分析的强大。 作为进阶的开始,我们先来讨论一下 SQL 中的空值问题,因为空值的特殊性导致我们很容易出现一些错误和问题。 空值与三值逻辑: SQL 阅读全文
posted @ 2023-03-07 23:13 ministep88 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 楔子 作为动态语言,python里面提供了很多以双下划线:__开头和结尾的属性,我们称之为魔法属性,这些属性是对象所内置的。我们可以直接通过这些魔法属性动态地查看一个对象的信息,下面我们就来看一看。 __name__ __name__是用来获取一个对象的名字的 print(int.__name__) 阅读全文
posted @ 2023-03-07 23:12 ministep88 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 楔子 python是一门很神奇的语言,原因在于它有很多的库可以实现各种意想不到的功能。当然我们这次介绍的库所实现的功能却是已经很常见了,就是操作、监控你的鼠标和键盘。如果你写过游戏,那么即使不用下面即将介绍的库也可以实现对鼠标、键盘的操作以及监控。 当然我们下面介绍库:pynput,是专门针对鼠标和 阅读全文
posted @ 2023-03-07 23:11 ministep88 阅读(864) 评论(0) 推荐(0) 编辑
摘要: [《数据库基础语法》10. 使用 JOIN 实现多表查询 - 古明地盆 - 博客园](https://www.cnblogs.com/traditional/p/12115201.html) 楔子 到目前为止,我们的查询都是从单个表中获取数据。下面我们开始探讨一下如何从多个表中获取相关的数据。因为在 阅读全文
posted @ 2023-03-07 23:05 ministep88 阅读(720) 评论(0) 推荐(1) 编辑
网站更新内容:请访问:https://bigdata.ministep.cn/