07 2021 档案

摘要:TIMESTAMPADD 语法 TIMESTAMP TIMESTAMPADD(interval,INT int_expr,TIMESTAMP datetime_expr) DATE TIMESTAMPADD(interval,INT int_expr,DATE datetime_expr) 入参 参 阅读全文
posted @ 2021-07-25 19:39 秋华 编辑
摘要:WEEK 语法 BIGINT WEEK(DATE date) BIGINT WEEK(TIMESTAMP timestamp) 入参 参数数据类型 date DATE timestamp TIMESTAMP 功能描述 计算指定日期在一年中的第几周,周数取值区间1~53。 示例 测试数据 dateSt 阅读全文
posted @ 2021-07-25 19:38 秋华 编辑
摘要:TO_DATE 语法 Date TO_DATE(INT time) Date TO_DATE(VARCHAR date) Date TO_DATE(VARCHAR date,VARCHAR format) 入参 参数数据类型 time INT 说明 表示从1970-1-1到所表示时间之间天数。 da 阅读全文
posted @ 2021-07-25 19:36 秋华 编辑
摘要:REGEXP 语法 BOOLEAN REGEXP(VARCHAR str, VARCHAR pattern) 入参 参数数据类型说明 str VARCHAR 指定的字符串。 pattern VARCHAR 指定的匹配模式。 功能描述 对指定的字符串执行一个正则表达式搜索,并返回一个Boolean值表 阅读全文
posted @ 2021-07-25 17:21 秋华 编辑
摘要:KEYVALUE 语法 VARCHAR KEYVALUE(VARCHAR str, VARCHAR split1, VARCHAR split2, VARCHAR key_name) 入参 参数数据类型说明 str VARCHAR 字符串中的key-value(kv)对。 split1 VARCHA 阅读全文
posted @ 2021-07-25 17:11 秋华 编辑
摘要:REPEAT 语法 VARCHAR REPEAT(VARCHAR str, INT n) 入参 参数数据类型说明 str VARCHAR 重复字符串值。 n INT 重复次数。 功能描述 返回以字符串值为str,重复次数为N的新的字符串。如果参数为null时,则返回null。如果重复次数为0或负数, 阅读全文
posted @ 2021-07-25 16:58 秋华 编辑
摘要:JSON_VALUE 语法 VARCHAR JSON_VALUE(VARCHAR content, VARCHAR path) 入参 content VARCHAR类型,需要解析的JSON对象,使用字符串表示。 path VARCHAR类型,解析JSON的路径表达式。 目前path支持如下表达式。 阅读全文
posted @ 2021-07-25 16:55 秋华 编辑
摘要:其它函数 函数 含义 append() 序列元素的追加(需指定其他序列) diff() 一阶差分 round() 元素的四舍五入 sort_values() 按值排序 sort_index() 按索引排序 to_dict() 转为字典 tolist() 转为列表 unique() 元素排重 阅读全文
posted @ 2021-07-12 00:45 秋华 编辑
摘要:时间序列函数 函数 含义 dt.date() 抽取出日期值 dt.time() 抽取出时间(时分秒) dt.year() 抽取出年 dt.mouth() 抽取出月 dt.day() 抽取出日 dt.hour() 抽取出时 dt.minute() 抽取出分钟 dt.second() 抽取出秒 dt.q 阅读全文
posted @ 2021-07-12 00:43 秋华 编辑
摘要:绘图与元素级运算函数 函数 含义 hist() 绘制直方图 plot() 可基于kind参数绘制更多图形(饼图,折线图,箱线图等) map() 元素映射 apply() 基于自定义函数的元素级操作 阅读全文
posted @ 2021-07-12 00:41 秋华 编辑
摘要:数据筛选函数 函数 含义 isin() 成员关系判断 between() 区间判断 loc() 条件判断(可使用在数据框中) iloc() 索引判断(可使用在数据框中) compress() 条件判断 nlargest() 搜寻最大的n个元素 nsmallest() 搜寻最小的n个元素 str.fi 阅读全文
posted @ 2021-07-12 00:40 秋华 编辑
摘要:数据清洗函数 函数 含义 duplicated() 判断序列元素是否重复 drop_duplicates() 删除重复值 hasnans() 判断序列是否存在缺失(返回TRUE或FALSE) isnull() 判断序列元素是否为缺失(返回与序列长度一样的bool值) notnull() 判断序列元素 阅读全文
posted @ 2021-07-12 00:33 秋华 编辑
摘要:统计汇总函数 函数 含义 min() 计算最小值 max() 计算最大值 sum() 求和 mean() 计算平均值 count() 计数(统计非缺失元素的个数) size() 计数(统计所有元素的个数) median() 计算中位数 var() 计算方差 std() 计算标准差 quantile( 阅读全文
posted @ 2021-07-12 00:31 秋华 编辑
摘要:聚合函数 AVG CONCAT_AGG COUNT FIRST_VALUE LAST_VALUE MAX MIN SUM VAR_POP STDDEV_POP 阅读全文
posted @ 2021-07-12 00:19 秋华 编辑
摘要:类型转换函数 CAST 语法 CAST(A AS type) 入参 参数数据类型 A 请参见类型转换。 功能描述 将A值转换为给定类型。如果转换后的类型和目标表字段类型不匹配时,会出现类似Insert into: Query result and target table 'test_result' 阅读全文
posted @ 2021-07-12 00:18 秋华 编辑
摘要:表值函数 STRING_SPLIT JSON_TUPLE GENERATE_SERIES MULTI_KEYVALUE 阅读全文
posted @ 2021-07-12 00:12 秋华 编辑
摘要:条件函数 IS_DECIMAL IS_DIGIT IS_ALPHA IF CASE WHEN NULLIF COALESCE 阅读全文
posted @ 2021-07-12 00:10 秋华 编辑
摘要:逻辑函数 = > >= <= < <> AND BETWEEN AND IS NOT FALSE IS NOT NULL IS NOT TRUE IS NOT UNKNOWN IS NULL IS TRUE IS UNKNOWN LIKE NOT NOT BETWEEN AND IN OR IS D 阅读全文
posted @ 2021-07-12 00:09 秋华 编辑
摘要:日期函数 TO_TIMESTAMP 语法 TIMESTAMP TO_TIMESTAMP(BIGINT time) TIMESTAMP TO_TIMESTAMP(VARCHAR date) TIMESTAMP TO_TIMESTAMP(VARCHAR date, VARCHAR format) 入参 阅读全文
posted @ 2021-07-12 00:07 秋华 编辑
摘要:数学函数 加 减 乘 除 ABS ACOS BIN ASIN ATAN BITAND BITNOT BITOR BITXOR CARDINALITY COS COT EXP E FLOOR LN LOG LOG10 LOG2 PI POWER RAND SIN SQRT TAN DEGREES CH 阅读全文
posted @ 2021-07-12 00:05 秋华 编辑
摘要:字符串函数 STR_TO_MAP 语法 MAP STR_TO_MAP(VARCHAR text) MAP STR_TO_MAP(VARCHAR text, VARCHAR listDelimiter, VARCHAR keyValueDelimiter) 功能描述 使用listDelimiter将t 阅读全文
posted @ 2021-07-12 00:04 秋华 编辑
摘要:0 目录 字符串函数 数学函数 日期函数 逻辑函数 条件函数 表值函数 类型转换函数 聚合函数 其他函数 阅读全文
posted @ 2021-07-11 23:40 秋华 编辑
摘要:0 文章目录 一、找到一个合适的docker的redis的版本 二、使用docker安装redis 三、准备redis的配置文件 四、配置redis.conf配置文件 五、创建本地与docker映射的目录,即本地存放的位置 六、启动docker redis 七、查看是否启动成功 一、找到一个合适的d 阅读全文
posted @ 2021-07-06 00:14 秋华 编辑
摘要:1.查找 Docker Hub 上的 nginx 镜像 [root@localhost ~]# docker search nginx 2.拉取官方的Nginx镜像 [root@localhost ~]# docker pull nginx 3.在本地镜像列表里查到 REPOSITORY 为 ngi 阅读全文
posted @ 2021-07-05 23:34 秋华 编辑
摘要:0 ⽬标 了解模块 导⼊模块 制作模块 __all__ 包的使⽤⽅法 ⼀. 模块 Python 模块(Module),是⼀个 Python ⽂件,以 .py 结尾,包含了 Python 对象定义和Python语句。 模块能定义函数,类和变量,模块⾥也能包含可执⾏的代码。 1.1. 导⼊模块 1.1. 阅读全文
posted @ 2021-07-04 17:34 秋华 编辑
摘要:0 ⽬标 ⾯向对象三⼤特性 类属性和实例属性 类⽅法和静态⽅法 ⼀. ⾯向对象三⼤特性 封装 将属性和⽅法书写到类的⾥⾯的操作即为封装 封装可以为属性和⽅法添加私有权限 继承 ⼦类默认继承⽗类的所有属性和⽅法 ⼦类可以重写⽗类属性和⽅法 多态 传⼊不同的对象,产⽣不同的结果 ⼆. 多态 2.1 了解 阅读全文
posted @ 2021-07-04 17:10 秋华 编辑
摘要:0 ⽬标 继承的概念 单继承 多继承 ⼦类重写⽗类的同名属性和⽅法 ⼦类调⽤⽗类的同名属性和⽅法 多层继承 super() 私有属性和私有⽅法 ⼀. 继承的概念 拓展1:经典类或旧式类 不由任意内置类型派⽣出的类,称之为经典类。 class 类名: 代码 ...... 拓展2:新式类 class 类 阅读全文
posted @ 2021-07-04 17:01 秋华 编辑
摘要:五. 综合应⽤ 5.1 烤地⽠ 5.1.1 需求 需求主线: 1. 被烤的时间和对应的地⽠状态: 0-3分钟:⽣的 3-5分钟:半⽣不熟 5-8分钟:熟的 超过8分钟:烤糊了 2. 添加的调料: ⽤户可以按⾃⼰的意愿添加调料 5.1.2 步骤分析 需求涉及⼀个事物: 地⽠,故案例涉及⼀个类:地⽠类。 阅读全文
posted @ 2021-07-04 16:38 秋华 编辑
摘要:1 过拟合:剪枝参数与回归模型调参 dfull = xgb.DMatrix(X,y) param1 = {'silent':True #并非默认 ,'obj':'reg:linear' #并非默认 ,"subsample":1 ,"max_depth":6 ,"eta":0.3 ,"gamma":0 阅读全文
posted @ 2021-07-04 10:53 秋华 编辑
摘要:#使用网格搜索来查找最佳的参数组合 from sklearn.model_selection import GridSearchCV param = {"reg_alpha":np.arange(0,5,0.05),"reg_lambda":np.arange(0,2,0.05)} gscv = G 阅读全文
posted @ 2021-07-04 10:30 秋华 编辑
摘要:1 选择弱评估器:重要参数booster for booster in ["gbtree","gblinear","dart"]: reg = XGBR(n_estimators=180 ,learning_rate=0.1 ,random_state=420 ,booster=booster).f 阅读全文
posted @ 2021-07-04 10:15 秋华 编辑
摘要:1 有放回随机抽样:重要参数subsample axisx = np.linspace(0,1,20) rs = [] for i in axisx: reg = XGBR(n_estimators=180,subsample=i,random_state=420) rs.append(CVS(re 阅读全文
posted @ 2021-07-03 23:37 秋华 编辑
摘要:1 提升集成算法:重要参数n_estimators 1. 导入需要的库,模块以及数据 from xgboost import XGBRegressor as XGBR from sklearn.ensemble import RandomForestRegressor as RFR from skl 阅读全文
posted @ 2021-07-03 23:26 秋华 编辑
摘要:1 机器学习竞赛的胜利女神 2 xgboost库与XGB的sklearn API #windows pip install xgboost #安装xgboost库 pip install --upgrade xgboost #更新xgboost库 #MAC brew install gcc@7 pi 阅读全文
posted @ 2021-07-03 22:56 秋华 编辑
摘要:1 文本编码技术简介 1.1 单词计数向量 sample = ["Machine learning is fascinating, it is wonderful" ,"Machine learning is a sensational techonology" ,"Elsa is a popula 阅读全文
posted @ 2021-07-03 21:22 秋华 编辑
摘要:1 多项式朴素贝叶斯MultinomialNB 1. 导入需要的模块和库 from sklearn.preprocessing import MinMaxScaler from sklearn.naive_bayes import MultinomialNB from sklearn.model_s 阅读全文
posted @ 2021-07-03 21:11 秋华 编辑
摘要:1 布里尔分数Brier Score from sklearn.metrics import brier_score_loss #注意,第一个参数是真实标签,第二个参数是预测出的概率值 #在二分类情况下,接口predict_proba会返回两列,但SVC的接口decision_function却只会 阅读全文
posted @ 2021-07-03 20:47 秋华 编辑
摘要:1 认识高斯朴素贝叶斯 1. 展示我所使用的设备以及各个库的版本 %%cmd pip install watermark #在这里必须分开cell,魔法命令必须是一个cell的第一部分内容 #注意load_ext这个命令只能够执行一次,再执行就会报错,要求用reload命令 %load_ext wa 阅读全文
posted @ 2021-07-03 20:03 秋华 编辑
摘要:1 真正的概率分类器 2 朴素贝叶斯是如何工作的 2.1 瓢虫冬眠:理解P(Y|X) 2.2 贝叶斯的性质与最大后验估计 2.3 汉堡称重:连续型变量的概率估计 3 sklearn中的朴素贝叶斯 阅读全文
posted @ 2021-07-03 19:42 秋华 编辑
摘要:NumPy 提供了线性代数函数库 linalg,该库包含了线性代数所需的所有功能,可以看看下面的说明: 函数描述 dot 两个数组的点积,即元素对应相乘。 vdot 两个向量的点积 inner 两个数组的内积 matmul 两个数组的矩阵积 determinant 数组的行列式 solve 求解线性 阅读全文
posted @ 2021-07-03 13:28 秋华 编辑
摘要:NumPy 提供了多种排序的方法。 这些排序函数实现不同的排序算法,每个排序算法的特征在于执行速度,最坏情况性能,所需的工作空间和算法的稳定性。 下表显示了三种排序算法的比较。 种类速度最坏情况工作空间稳定性 'quicksort'(快速排序) 1 O(n^2) 0 否 'mergesort'(归并 阅读全文
posted @ 2021-07-03 13:21 秋华 编辑
摘要:NumPy 提供了很多统计函数,用于从数组中查找最小元素,最大元素,百分位标准差和方差等。 函数说明如下: numpy.amin() 和 numpy.amax() numpy.amin() 用于计算数组中的元素沿指定轴的最小值。 numpy.amax() 用于计算数组中的元素沿指定轴的最大值。 im 阅读全文
posted @ 2021-07-03 12:42 秋华 编辑
摘要:舍入函数 numpy.around() 函数返回指定数字的四舍五入值。 numpy.around(a,decimals) 参数说明: a: 数组 decimals: 舍入的小数位数。 默认值为0。 如果为负,整数将四舍五入到小数点左侧的位置 numpy.floor() numpy.floor() 返 阅读全文
posted @ 2021-07-03 12:36 秋华 编辑
摘要:以下函数用于对 dtype 为 numpy.string_ 或 numpy.unicode_ 的数组执行向量化字符串操作。 它们基于 Python 内置库中的标准字符串函数。 这些函数在字符数组类(numpy.char)中定义。 函数描述 add() 对两个数组的逐个字符串元素进行连接 multip 阅读全文
posted @ 2021-07-03 12:34 秋华 编辑
摘要:1 分割数组 函数数组及操作 split 将一个数组分割为多个子数组 hsplit 将一个数组水平分割为多个子数组(按列) vsplit 将一个数组垂直分割为多个子数组(按行) numpy.split numpy.split 函数沿特定的轴将数组分割为子数组,格式如下: numpy.split(ar 阅读全文
posted @ 2021-07-03 11:34 秋华 编辑
摘要:1 修改数组维度 维度描述 broadcast 产生模仿广播的对象 broadcast_to 将数组广播到新形状 expand_dims 扩展数组的形状 squeeze 从数组的形状中删除一维条目 numpy.broadcast numpy.broadcast 用于模仿广播的对象,它返回一个对象,该 阅读全文
posted @ 2021-07-03 11:27 秋华 编辑
摘要:1 修改数组形状 函数描述 reshape 不改变数据的条件下修改形状 flat 数组元素迭代器 flatten 返回一份数组拷贝,对拷贝所做的修改不会影响原始数组 ravel 返回展开数组 numpy.reshape numpy.reshape 函数可以在不改变数据的条件下修改形状,格式如下: n 阅读全文
posted @ 2021-07-03 11:19 秋华 编辑
摘要:1 整数数组索引 2 布尔索引 我们可以通过一个布尔数组来索引目标数组。 布尔索引通过布尔运算(如:比较运算符)来获取符合指定条件的元素的数组。 以下实例获取大于 5 的元素: 3 花式索引 花式索引指的是利用整数数组进行索引。 花式索引根据索引数组的值作为目标数组的某个轴的下标来取值。对于使用一维 阅读全文
posted @ 2021-07-03 11:04 秋华 编辑
摘要:NumPy 切片和索引 ndarray对象的内容可以通过索引或切片来访问和修改,与 Python 中 list 的切片操作一样。 ndarray 数组可以基于 0 - n 的下标进行索引,切片对象可以通过内置的 slice 函数,并设置 start, stop 及 step 参数进行,从原数组中切割 阅读全文
posted @ 2021-07-03 10:58 秋华 编辑
摘要:NumPy 从数值范围创建数组 这一章节我们将学习如何从数值范围创建数组。 numpy.arange numpy 包中的使用 arange 函数创建数值范围并返回 ndarray 对象,函数格式如下: numpy.arange(start, stop, step, dtype) 根据 start 与 阅读全文
posted @ 2021-07-03 10:46 秋华 编辑
摘要:NumPy 从已有的数组创建数组 本章节我们将学习如何从已有的数组创建数组。 numpy.asarray numpy.asarray 类似 numpy.array,但 numpy.asarray 参数只有三个,比 numpy.array 少两个。 numpy.asarray(a, dtype = N 阅读全文
posted @ 2021-07-03 10:42 秋华 编辑
摘要:NumPy 创建数组 ndarray 数组除了可以使用底层 ndarray 构造器来创建外,也可以通过以下几种方式来创建。 numpy.empty numpy.empty 方法用来创建一个指定形状(shape)、数据类型(dtype)且未初始化的数组: numpy.empty(shape, dtyp 阅读全文
posted @ 2021-07-03 10:39 秋华 编辑
摘要:NumPy 数组属性 本章节我们将来了解 NumPy 数组的一些基本属性。 NumPy 数组的维数称为秩(rank),秩就是轴的数量,即数组的维度,一维数组的秩为 1,二维数组的秩为 2,以此类推。 在 NumPy中,每一个线性的数组称为是一个轴(axis),也就是维度(dimensions)。比如 阅读全文
posted @ 2021-07-03 10:29 秋华 编辑
摘要:NumPy 数据类型 numpy 支持的数据类型比 Python 内置的类型要多很多,基本上可以和 C 语言的数据类型对应上,其中部分类型对应为 Python 内置的类型。下表列举了常用 NumPy 基本类型。 名称描述 bool_ 布尔型数据类型(True 或者 False) int_ 默认的整数 阅读全文
posted @ 2021-07-03 10:24 秋华 编辑
摘要:NumPy Ndarray 对象 NumPy 最重要的一个特点是其 N 维数组对象 ndarray,它是一系列同类型数据的集合,以 0 下标为开始进行集合中元素的索引。 ndarray 对象是用于存放同类型元素的多维数组。 ndarray 中的每个元素在内存中都有相同存储大小的区域。 ndarray 阅读全文
posted @ 2021-07-03 10:19 秋华 编辑
摘要:1 多项式对数据做了什么 from sklearn.preprocessing import PolynomialFeatures import numpy as np #如果原始数据是一维的 X = np.arange(1,4).reshape(-1,1) X#二次多项式,参数degree控制多项 阅读全文
posted @ 2021-07-03 09:52 秋华 编辑
摘要:2 使用分箱处理非线性问题 1. 导入所需要的库 import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression from sklearn.tree import 阅读全文
posted @ 2021-07-03 09:50 秋华 编辑
摘要:1 重塑我们心中的“线性”概念 1.1 变量之间的线性关系 1.2 数据的线性与非线性 1.3 线性模型与非线性模型 1. 导入所需要的库 import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model imp 阅读全文
posted @ 2021-07-03 09:12 秋华 编辑
摘要:3 Lasso 3.1 Lasso与多重共线性 3.2 Lasso的核心作用:特征选择 import numpy as np import pandas as pd from sklearn.linear_model import Ridge, LinearRegression, Lasso fro 阅读全文
posted @ 2021-07-02 22:40 秋华 编辑
摘要:1 最熟悉的陌生人:多重共线性 逆矩阵存在的充分必要条件 行列式不为0的充分必要条件 矩阵满秩的充分必要条件 2 岭回归 2.1 岭回归解决多重共线性问题 2.2 linear_model.Ridge import numpy as np import pandas as pd from sklea 阅读全文
posted @ 2021-07-02 22:33 秋华 编辑
摘要:0 简介 1 是否预测了正确的数值 from sklearn.metrics import mean_squared_error as MSE MSE(yhat,Ytest) y.max() y.min() cross_val_score(reg,X,y,cv=10,scoring="mean_sq 阅读全文
posted @ 2021-07-02 21:08 秋华 编辑
摘要:1 多元线性回归的基本原理 2 最小二乘法求解多元线性回归的参数 https://en.wikipedia.org/wiki/Matrix_calculus 3 linear_model.LinearRegression class sklearn.linear_model.LinearRegres 阅读全文
posted @ 2021-07-02 20:37 秋华 编辑
摘要:0 简介 Kaggle下载链接走这里:https://www.kaggle.com/jsphyg/weather-dataset-rattle-package 1 导库导数据,探索特征 导入需要的库 import pandas as pd import numpy as np from sklear 阅读全文
posted @ 2021-07-01 21:16 秋华 编辑
摘要:1 SVC处理多分类问题:重要参数decision_function_shape 2 SVM的模型复杂度 3 SVM中的随机性:参数random_state 4 SVC的重要属性补充 #属性n_support_:调用每个类别下的支持向量的数目 clf_proba.n_support_ #属性coef 阅读全文
posted @ 2021-07-01 21:03 秋华 编辑

点击右上角即可分享
微信分享提示