随笔档案「2021年6月」 - 秋华

机器学习sklearn（71）：算法实例（二十八）分类（十五）SVM（六）sklearn.svm.SVC（五） SVC的模型评估指标

摘要：0 简介 1 混淆矩阵（Confusion Matrix） 1.1 模型整体效果：准确率 1.2 捕捉少数类的艺术：精确度，召回率和F1 score #所有判断正确并确实为1的样本 / 所有被判断为1的样本 #对于没有class_weight，没有做样本平衡的灰色决策边界来说： (y[y == cl 阅读全文

posted @ 2021-06-30 23:22 秋华

机器学习sklearn（70）：算法实例（二十七）分类（十四）SVM（五）sklearn.svm.SVC（四）二分类SVC的进阶

摘要：1 SVC用于二分类的原理复习 2 参数C的理解进阶 import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap from sklearn import svm fro 阅读全文

posted @ 2021-06-30 22:20 秋华

机器学习sklearn（69）：算法实例（二十六）分类（十三）SVM（四）sklearn.svm.SVC（三）附录

摘要：1 SVC的参数列表 2 SVC的属性列表 3 SVC的接口列表阅读全文

posted @ 2021-06-29 23:49 秋华

机器学习sklearn（68）：算法实例（二十五）分类（十二）SVM（三）sklearn.svm.SVC（二）

摘要：2 非线性SVM与核函数 2.1 SVC在非线性数据上的推广 2.2 重要参数kernel clf = SVC(kernel = "rbf").fit(X,y) plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow") plot_svc_decision_ 阅读全文

posted @ 2021-06-29 23:47 秋华

机器学习sklearn（67）：算法实例（二十四）分类（十一）SVM（二）sklearn.svm.SVC（一）

摘要：class sklearn.svm.SVC (C=1.0, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True,probability=False, tol=0.001, cache_size=200, 阅读全文

posted @ 2021-06-29 22:41 秋华

机器学习sklearn（66）：算法实例（二十三）SVM（一）概述

摘要：1 支持向量机分类器是如何工作的 2 支持向量机原理的三层理解 3 sklearn中的支持向量机阅读全文

posted @ 2021-06-29 20:36 秋华

机器学习sklearn（65）：算法实例（二十二）聚类（五）KMeans （四）总结

摘要：1 KMeans参数列表 2 KMeans属性列表 3 KMeans接口列表阅读全文

posted @ 2021-06-29 20:23 秋华

机器学习sklearn（64）：算法实例（二十一）聚类（四）KMeans （三）案例：聚类算法用于降维，KMeans的矢量量化应用

摘要：1. 导入需要的库 import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.metrics import pairwise_distances_argmin 阅读全文

posted @ 2021-06-28 23:57 秋华

机器学习sklearn（63）：算法实例（二十）聚类（三）KMeans （二） sklearn.cluster.KMeans

摘要：class sklearn.cluster.KMeans (n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001,precompute_distances=’auto’, verbose=0, random_state 阅读全文

posted @ 2021-06-28 21:23 秋华

机器学习sklearn（62）：算法实例（十九）聚类（二）KMeans

摘要：1 KMeans是如何工作的 2 簇内误差平方和的定义和解惑 3 KMeans算法的时间复杂度阅读全文

posted @ 2021-06-28 21:22 秋华

机器学习sklearn（61）：算法实例（十八）聚类（一）概述

摘要：1 无监督学习与聚类算法聚类vs分类 2 sklearn中的聚类算法聚类算法在sklearn中有两种表现形式，一种是类（和我们目前为止学过的分类算法以及数据预处理方法们都一样），需要实例化，训练并使用接口和属性来调用结果。另一种是函数（function），只需要输入特征矩阵和超参数，即可返回聚类阅读全文

posted @ 2021-06-28 20:00 秋华

机器学习sklearn（60）：算法实例（十七）分类（十）逻辑回归（五）附录

摘要：1 逻辑回归的参数列表 2 逻辑回归的属性列表 3 逻辑回归的接口列表阅读全文

posted @ 2021-06-27 18:49 秋华

机器学习sklearn（59）：算法实例（十六）分类（九）逻辑回归（四）实例用逻辑回归制作评分卡

摘要：0 案例：用逻辑回归制作评分卡 1 导库，获取数据 %matplotlib inline import numpy as np import pandas as pd from sklearn.linear_model import LogisticRegression as LR #其实日常在导库阅读全文

posted @ 2021-06-27 18:46 秋华

机器学习sklearn（58）：算法实例（十五）分类（八）逻辑回归（三）linear_model.LogisticRegression(二) 重要参数

摘要：3 梯度下降：重要参数max_iter 3.1 梯度下降求解逻辑回归 3.2 梯度下降的概念与解惑 3.3 步长的概念与解惑 l2 = [] l2test = [] Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y,test_size=0.3,r 阅读全文

posted @ 2021-06-27 16:51 秋华

机器学习sklearn（57）：算法实例（十四）分类（七）逻辑回归（二）linear_model.LogisticRegression(一) 重要参数

摘要：class sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0,fifit_intercept=True, intercept_scaling=1, class_weight=Non 阅读全文

posted @ 2021-06-27 16:05 秋华

机器学习sklearn（56）：算法实例（十三）分类（六）逻辑回归（一）简介

摘要：1 名为“回归”的分类器 2 为什么需要逻辑回归 3 sklearn中的逻辑回归阅读全文

posted @ 2021-06-27 14:59 秋华

机器学习sklearn（55）：特征工程（十九）特征降维（十）降维算法PCA和SVD（五）附录

摘要：1 PCA参数列表 2 PCA属性列表 3 PCA接口列表阅读全文

posted @ 2021-06-26 00:09 秋华

机器学习sklearn（51）：特征工程（十八）特征降维（九）降维算法PCA和SVD（四）PCA对手写数字数据集的降维

摘要：PCA对手写数字数据集的降维还记得我们上一周在讲特征工程时，使用的手写数字的数据集吗？数据集结构为(42000, 784)，用KNN跑一次半小时，得到准确率在96.6%上下，用随机森林跑一次12秒，准确率在93.8%，虽然KNN效果好，但由于数据量太大，KNN计算太缓慢，所以我们不得不选用随机森林阅读全文

posted @ 2021-06-26 00:05 秋华

机器学习sklearn（50）：特征工程（十七）特征降维（八）降维算法PCA和SVD（三）PCA与SVD

摘要：3 PCA中的SVD 3.1 PCA中的SVD哪里来？ PCA(2).fit(X).components_ PCA(2).fit(X).components_.shape 3.2 重要参数svd_solver 与 random_state 3.3 重要属性components_ 1. 导入需要的库和阅读全文

posted @ 2021-06-25 23:54 秋华

机器学习sklearn（49）：特征工程（十六）特征降维（七）降维算法PCA和SVD（二）PCA与SVD

摘要：0 PCA与SVD 1 降维究竟是怎样实现？ class sklearn.decomposition.PCA (n_components=None, copy=True, whiten=False, svd_solver=’auto’, tol=0.0,iterated_power=’auto’, 阅读全文

posted @ 2021-06-25 23:36 秋华

机器学习sklearn（48）：特征工程（十五）特征降维（六）降维算法PCA和SVD（一）概述

摘要：1 从什么叫“维度”说开来我们不断提到一些语言，比如说：随机森林是通过随机抽取特征来建树，以避免高维计算；再比如说，sklearn中导入特征矩阵，必须是至少二维；上周我们讲解特征工程，还特地提到了，特征选择的目的是通过降维来降低算法的计算成本……这些语言都很正常地被我用来使用，直到有一天，一个小伙阅读全文

posted @ 2021-06-25 23:11 秋华

机器学习sklearn（47）：特征工程（十四）特征选择（五）Embedded嵌入法/Wrapper包装法

摘要：1 Embedded嵌入法 from sklearn.feature_selection import SelectFromModel from sklearn.ensemble import RandomForestClassifier as RFC RFC_ = RFC(n_estimators 阅读全文

posted @ 2021-06-25 19:55 秋华

机器学习sklearn（46）：特征工程（十三）特征选择（四）简介 /Filter过滤法

摘要：当数据预处理完成后，我们就要开始进行特征工程了。 #导入数据，让我们使用digit recognizor数据来一展身手 import pandas as pd data = pd.read_csv(r"C:\work\learnbetter\micro-class\week 3 Preprocess 阅读全文

posted @ 2021-06-24 23:58 秋华

机器学习sklearn（45）：特征工程（十二）特征编码（六）处理分类型特征：编码与哑变量/处理连续型特征：二值化与分段

摘要：1 处理分类型特征：编码与哑变量 from sklearn.preprocessing import LabelEncoder y = data.iloc[:,-1] #要输入的是标签，不是特征矩阵，所以允许一维 le = LabelEncoder() #实例化 le = le.fit(y) #导入阅读全文

posted @ 2021-06-24 23:12 秋华

机器学习sklearn（44）：数据处理（七）数据无量纲化/缺失值

摘要：1 数据无量纲化 from sklearn.preprocessing import MinMaxScaler data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]] #不太熟悉numpy的小伙伴，能够判断data的结构吗？ #如果换成表是什么样子？ import 阅读全文

posted @ 2021-06-24 22:53 秋华

机器学习sklearn（四十三）：算法实例（十二）随机森林总结

摘要：1 Bagging vs Boosting 2 RFC的参数列表 3 RFC的属性列表 4 RFC的接口列表阅读全文

posted @ 2021-06-24 19:56 秋华

数据可视化基础专题（三十五）：Pandas基础（十五）关于axis参数的理解

摘要：来源：https://zhuanlan.zhihu.com/p/115646862 之前一直对pandas和numpy里的axis 参数理解的不透彻，今天把它写下来加深印象。 axis = 0 是代表跨行，而axis = 1 是代表跨列，想明白这一点，对于其他的操作就都想明白了。 numpy 官方文阅读全文

posted @ 2021-06-23 23:59 秋华

机器学习sklearn（四十二）：算法实例（十一）分类（五）RandomForestClassifier（二）实例：随机森林在乳腺癌数据上的调参

摘要：案例中，往往使用真实数据，为什么我们要使用sklearn自带的数据呢？因为真实数据在随机森林下的调参过程，往往非常缓慢。真实数据量大，维度高，在使用随机森林之前需要一系列的处理，因此不太适合用来做直播中的案例演示。在本章，我为大家准备了kaggle上下载的辨别手写数字的数据，有4W多条记录700多个阅读全文

posted @ 2021-06-23 23:54 秋华

机器学习sklearn（四十一）：算法实例（十）调参技巧

摘要：阅读全文

posted @ 2021-06-23 23:34 秋华

机器学习sklearn（四十）：算法实例（九）回归（二）随机森林回归器 RandomForestRegressor

摘要：class sklearn.ensemble.RandomForestClassifier(n_estimators=’10’, criterion=’gini’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_ 阅读全文

posted @ 2021-06-23 23:30 秋华

机器学习sklearn（三十九）：算法实例（八）分类（四）随机森林分类器 RandomForestClassifier

摘要：class sklearn.ensemble.RandomForestRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_ 阅读全文

posted @ 2021-06-23 22:34 秋华

机器学习sklearn（三十八）：算法实例（七）随机森林（一）简介

摘要：1 概述 1.1 集成算法概述集成学习（ensemble learning）是时下非常流行的机器学习算法，它本身不是一个单独的机器学习算法，而是通过在数据上构建多个模型，集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影，在现实中集成学习也有相当大的作用，它可以用来做市场营销阅读全文

posted @ 2021-06-23 21:10 秋华

机器学习sklearn（三十七）：算法实例（六）分类（三）分类决策树（三）Bonus Chapter I 实例：分类树在合成数集上的表现

摘要：我们在红酒数据集上画出了一棵树，并且展示了多个参数会对树形成这样的影响，接下来，我们将在不同结构的数据集上测试一下决策树的效果，让大家更好地理解决策树。 1. 导入需要的库 import numpy as np import matplotlib.pyplot as plt from matplot 阅读全文

posted @ 2021-06-23 20:23 秋华

机器学习sklearn（三十六）：算法实例（五）决策树(二)总结

摘要：1 决策树的优缺点决策树优点 1. 易于理解和解释，因为树木可以画出来被看见 2. 需要很少的数据准备。其他很多算法通常都需要数据规范化，需要创建虚拟变量并删除空值等。但请注意，sklearn中的决策树模块不支持对缺失值的处理。 3. 使用树的成本（比如说，在预测数据的时候）是用于训练树的数据点的阅读全文

posted @ 2021-06-23 20:11 秋华

机器学习sklearn（三十五）：算法实例（四）分类（二）分类决策树（二）泰坦尼克号幸存者的预测

摘要：泰坦尼克号的沉没是世界上最严重的海难事故之一，今天我们通过分类树模型来预测一下哪些人可能成为幸存者。数据集来着https://www.kaggle.com/c/titanic，数据集会随着代码一起提供给大家，大家可以在下载页面拿到，或者到群中询问。数据集包含两个csv格式文件，data为我们接下来要阅读全文

posted @ 2021-06-23 00:06 秋华

机器学习sklearn（三十四）：算法实例（三）回归（一）决策树回归（一） DecisionTreeRegressor

摘要：class sklearn.tree.DecisionTreeRegressor(*, criterion='mse', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_frac 阅读全文

posted @ 2021-06-22 23:37 秋华

机器学习sklearn（三十三）：算法实例（二）分类（一）分类决策树（一） DecisionTreeClassifier与红酒数据集

摘要：class sklearn.tree.DecisionTreeClassifier(*, criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fr 阅读全文

posted @ 2021-06-22 22:08 秋华

机器学习sklearn（三十二）：算法实例（一）决策树（一）简介

摘要：1 概述 1.1 决策树是如何工作的决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集阅读全文

posted @ 2021-06-22 22:03 秋华

解决docker：x509:certificate has expired or is not yet valid

摘要：来源：https://blog.csdn.net/qq_38942551/article/details/99134783 记录一下遇到的问题：x509:certificate has expired or is not yet valid 背景：主机向镜像仓库传镜像的时候，出现错误提示镜像仓库：阅读全文

posted @ 2021-06-20 18:16 秋华

机器学习sklearn（三十一）：Pipeline（管道）和 FeatureUnion（特征联合）: 合并的评估器

摘要：变换器(Transformers)通常与分类器，回归器或其他的学习器组合在一起以构建复合估计器。完成这件事的最常用工具是 Pipeline。 Pipeline 经常与 FeatureUnion 结合起来使用。 FeatureUnion 用于将变换器(transformers)的输出串联到复合特征空阅读全文

posted @ 2021-06-20 13:30 秋华

机器学习sklearn（三十）：模型保存

摘要：在训练完 scikit-learn 模型之后，最好有一种方法来将模型持久化以备将来使用，而无需重新训练。以下部分为您提供了有关如何使用 pickle 来持久化模型的示例。在使用 pickle 序列化时，我们还将回顾一些安全性和可维护性方面的问题。 pickle的另一种方法是使用相关项目中列出的模阅读全文

posted @ 2021-06-20 13:06 秋华

机器学习sklearn（二十九）：模型评估（九）调整估计器的超参数

摘要：超参数，即不直接在估计器内学习的参数。在 scikit-learn 包中，它们作为估计器类中构造函数的参数进行传递。典型的示例有：用于支持向量分类器的 C 、kernel 和 gamma ，用于Lasso的 alpha 等。搜索超参数空间以便获得最好交叉验证分数的方法是可能的而且是值得提倡的。阅读全文

posted @ 2021-06-20 13:00 秋华

机器学习sklearn（二十八）：模型评估（八）量化预测的质量（五）聚类指标/虚拟估计

摘要：聚类指标该 sklearn.metrics 模块实现了一些 loss, score 和 utility 函数. 更多信息请参阅聚类性能度量部分, 例如聚类, 以及用于二分聚类的 Biclustering 评测. 虚拟估计在进行监督学习的过程中，简单的 sanity check（理性检查）包括阅读全文

posted @ 2021-06-19 23:55 秋华

机器学习sklearn（二十七）：模型评估（七）量化预测的质量（四）回归指标

摘要：该 sklearn.metrics 模块实现了一些 loss, score 以及 utility 函数以测量 regression（回归）的性能. 其中一些已经被加强以处理多个输出的场景: mean_squared_error, mean_absolute_error, explained_vari 阅读全文

posted @ 2021-06-19 23:52 秋华

机器学习sklearn（二十六）：模型评估（六）量化预测的质量（三）多标签排名指标

摘要：在多分类学习中，每个样本可以具有与其相关联的任何数量的真实标签。目标是给予高分，更好地评价真实标签。 1. 覆盖误差 coverage_error 函数计算必须包含在最终预测中的标签的平均数，以便预测所有真正的标签。如果您想知道有多少 top 评分标签，您必须通过平均来预测，而不会丢失任何真正的标阅读全文

posted @ 2021-06-19 23:43 秋华

机器学习sklearn（二十五）：模型评估（五）量化预测的质量（二）分类指标

摘要：分类指标 sklearn.metrics 模块实现了几个 loss, score, 和 utility 函数来衡量 classification （分类）性能。某些 metrics （指标）可能需要 positive class （正类），confidence values（置信度值）或 bina 阅读全文

posted @ 2021-06-19 23:41 秋华

机器学习sklearn（二十四）：模型评估（四）量化预测的质量（一）scoring 参数: 定义模型评估规则

摘要：有 3 种不同的 API 用于评估模型预测的质量: Estimator score method（估计器得分的方法）: Estimators（估计器）有一个 score（得分）方法，为其解决的问题提供了默认的 evaluation criterion （评估标准）。在这个页面上没有相关讨论，但是阅读全文

posted @ 2021-06-19 23:12 秋华

机器学习sklearn（二十三）：模型评估（三）交叉验证：评估估算器的表现（三）交叉验证迭代器

摘要：接下来的部分列出了一些用于生成索引标号，用于在不同的交叉验证策略中生成数据划分的工具。 1. 交叉验证迭代器–循环遍历数据假设一些数据是独立的和相同分布的 (i.i.d) 假定所有的样本来源于相同的生成过程，并假设生成过程没有记忆过去生成的样本。在这种情况下可以使用下面的交叉验证器。注意尽管阅读全文

posted @ 2021-06-19 22:10 秋华

机器学习sklearn（二十二）：模型评估（二）交叉验证：评估估算器的表现（二）计算交叉验证的指标

摘要：计算交叉验证的指标使用交叉验证最简单的方法是在估计器和数据集上调用 cross_val_score 辅助函数。下面的示例展示了如何通过分割数据，拟合模型和计算连续 5 次的分数（每次不同分割）来估计 linear kernel 支持向量机在 iris 数据集上的精度: >>> from skle 阅读全文

posted @ 2021-06-19 21:41 秋华

机器学习sklearn（二十一）：模型评估（一）交叉验证：评估估算器的表现（一）简介

摘要：学习预测函数的参数，并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数，但对于尚未出现过的数据它则无法预测出任何有用的信息。这种情况称为 overfitting（过拟合）. 为了避免这种情况，在进行（监督）机器学习实验时，通常取出部分可利用数据作为 test 阅读全文

posted @ 2021-06-19 21:21 秋华

机器学习sklearn（二十）：特征工程（十一）特征编码（五）类别特征编码（三）独热编码 OneHotEncoder

摘要：另外一种将标称型特征转换为能够被scikit-learn中模型使用的编码是one-of-K，又称为独热码或dummy encoding。这种编码类型已经在类OneHotEncoder中实现。该类把每一个具有n_categories个可能取值的categorical特征变换为长度为n_categ 阅读全文

posted @ 2021-06-19 19:20 秋华

机器学习sklearn（十九）：特征工程（十）特征编码（四）类别特征编码（二）标签编码 OrdinalEncoder

摘要：在机器学习中，特征经常不是连续的数值型的而是标称型的(categorical)。举个示例，一个人的样本具有特征["male", "female"], ["from Europe", "from US", "from Asia"], ["uses Firefox", "uses Chrome", "u 阅读全文

posted @ 2021-06-19 19:14 秋华

机器学习sklearn（十八）：特征工程（九）特征编码（三）类别特征编码（一）标签编码 LabelEncoder

摘要：LabelEncoder 是一个可以用来将标签规范化的工具类，它可以将标签的编码值范围限定在[0,n_classes-1]. 这在编写高效的Cython程序时是非常有用的. LabelEncoder 可以如下使用: >>> from sklearn import preprocessing >>> 阅读全文

posted @ 2021-06-19 19:04 秋华

机器学习sklearn（十七）：特征工程（八）特征选择（三）卡方选择（二）卡方检验

摘要：Python有包可以直接实现特征选择，也就是看自变量对因变量的相关性。今天我们先开看一下如何用卡方检验实现特征选择。 1. 首先import包和实验数据： from sklearn.feature_selection import SelectKBest from sklearn.feature_s 阅读全文

posted @ 2021-06-19 18:49 秋华

机器学习sklearn（十六）：特征工程（七）特征选择（二）卡方选择（一）卡方检验

摘要：卡方检验，统计学的方法，现在机器学习看变量的时候也会用到。很多不知道的人，一听到这个名词，会马上联想到，啊？还要拿张卡来检验吗？其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中，通常用在某个变量(或特征)值是不是和应变量有显著关系。我常听到运营和分析师这样的对话，阅读全文

posted @ 2021-06-19 18:41 秋华

机器学习sklearn（十五）：特征工程（六）特征选择（一）主成分分析PCA

摘要：1. 准确的PCA和概率解释（Exact PCA and probabilistic interpretation） PCA 用于对具有一组连续正交分量(Orthogonal component 译注: 或译为正交成分,下出现成分和分量是同意词)的多变量数据集进行方差最大化的分解。在 sc 阅读全文

posted @ 2021-06-19 18:25 秋华

机器学习sklearn（十四）：特征工程（五）特征编码（二）特征哈希(二)

摘要：特征哈希（相当于一种降维技巧）类 FeatureHasher 是一种高速，低内存消耗的向量化方法，它使用了特征散列技术，或可称为 “散列法” （hashing trick）的技术。代替在构建训练中遇到的特征的哈希表，如向量化所做的那样 FeatureHasher 将哈希函数应用于特征，以便直接阅读全文

posted @ 2021-06-19 18:14 秋华

机器学习sklearn（十三）：特征工程（四）特征编码（一）特征哈希(一)

摘要：来源：https://www.freesion.com/article/24301262498/ 本文介绍的是一种面对高基数类别特征的普适性方法：特征哈希（FeatureHasher）。目前这只是本人的一种想法，具体效果如何还需要在实际项目中验证。如果说独热编码后新生成的特征数量会跟随类别数量而变阅读全文

posted @ 2021-06-19 17:42 秋华

机器学习sklearn（十二）：特征工程（三）特征组合与交叉（一）多项式特征

摘要：在机器学习中，通过增加一些输入数据的非线性特征来增加模型的复杂度通常是有效的。一个简单通用的办法是使用多项式特征，这可以获得特征的更高维度和互相间关系的项。这在 PolynomialFeatures 中实现: >>> import numpy as np >>> from sklearn.prepr 阅读全文

posted @ 2021-06-19 17:19 秋华

机器学习sklearn（十一）：数据处理（六）非线性转换

摘要：有两种类型的转换是可用的:分位数转换和幂函数转换。分位数和幂变换都基于特征的单调变换，从而保持了每个特征值的秩。通过执行秩变换，分位数变换平滑了异常分布，并且比缩放方法受异常值的影响更小。但是它的确使特征间及特征内的关联和距离失真了。幂变换则是一组参数变换，其目的是将数据从任意分布映射到接近高斯阅读全文

posted @ 2021-06-19 17:14 秋华

机器学习sklearn（十）：数据处理（五）自定义转换器

摘要：在机器学习中，想要将一个已有的 Python 函数转化为一个转换器来协助数据清理或处理。可以使用 FunctionTransformer 从任意函数中实现一个转换器。例如，在一个管道中构建一个实现日志转换的转化器，这样做: >>> import numpy as np >>> from sklear 阅读全文

posted @ 2021-06-19 16:48 秋华

机器学习sklearn（九）：特征工程（二）特征离散化（二）特征二值化

摘要：特征二值化是将数值特征用阈值过滤得到布尔值的过程。这对于下游的概率型模型是有用的，它们假设输入数据是多值伯努利分布(Bernoulli distribution) 。例如这个示例 sklearn.neural_network.BernoulliRBM 。即使归一化计数(又名术语频率)和TF 阅读全文

posted @ 2021-06-19 16:45 秋华

机器学习sklearn（八）：特征工程（一）特征离散化（一）K-bins 离散化

摘要：离散化 (Discretization) (有些时候叫量化(quantization) 或装箱(binning)) 提供了将连续特征划分为离散特征值的方法。某些具有连续特征的数据集会受益于离散化，因为离散化可以把具有连续属性的数据集变换成只有名义属性(nominal attributes)的阅读全文

posted @ 2021-06-19 16:35 秋华

机器学习sklearn（七）：数据处理（四）数值型数据处理（二）标准化 StandardScaler

摘要：The preprocessing module provides the StandardScaler utility class, which is a quick and easy way to perform the following operation on an array-like 阅读全文

posted @ 2021-06-19 15:37 秋华

机器学习sklearn（六）：数据处理（三）数值型数据处理（一）归一化( MinMaxScaler/MaxAbsScaler)

摘要：来源：https://www.cntofu.com/book/170/docs/59.md 1 将特征缩放至特定范围内一种标准化是将特征缩放到给定的最小值和最大值之间，通常在零和一之间，或者也可以将每个特征的最大绝对值转换至单位大小。可以分别使用 MinMaxScaler 和 MaxAbsScal 阅读全文

posted @ 2021-06-19 15:13 秋华

ALINK(三十五)：特征工程（十四）类别特征编码（二）独热编码

摘要：独热编码训练 (OneHotTrainBatchOp) Java 类名：com.alibaba.alink.operator.batch.feature.OneHotTrainBatchOp Python 类名：OneHotTrainBatchOp 功能介绍 one-hot编码，也称独热编码，对于每阅读全文

posted @ 2021-06-18 23:32 秋华

ALINK(三十四)：特征工程（十三）类别特征编码（一）简介

摘要：来源：https://www.cnblogs.com/cgmcoding/p/14360420.html 其中count encoder，one-hot encoder，label encoder主要针对低基数无序特征，比如性别。可以采用target encoder或者mean encoder的方法阅读全文

posted @ 2021-06-18 23:30 秋华

ALINK(三十三)：特征工程（十二）特征编码（三）特征哈希 (FeatureHasherBatchOp)

摘要：Java 类名：com.alibaba.alink.operator.batch.feature.FeatureHasherBatchOp Python 类名：FeatureHasherBatchOp 功能介绍将多个特征组合成一个特征向量。参数说明名称中文名称描述类型是否必须？默认值阅读全文

posted @ 2021-06-18 23:23 秋华

ALINK(三十二)：特征工程（十一）特征选择（三）向量卡方选择器 (VectorChiSqSelectorBatchOp)

摘要：Java 类名：com.alibaba.alink.operator.batch.feature.VectorChiSqSelectorBatchOp Python 类名：VectorChiSqSelectorBatchOp 功能介绍针对vector数据，进行特征筛选参数说明名称中文名称描阅读全文

posted @ 2021-06-18 23:20 秋华

ALINK(三十一)：特征工程（十）特征选择（二）卡方选择器 (ChiSqSelectorBatchOp)

摘要：Java 类名：com.alibaba.alink.operator.batch.feature.ChiSqSelectorBatchOp Python 类名：ChiSqSelectorBatchOp 功能介绍针对table数据，进行特征筛选参数说明名称中文名称描述类型是否必须？默认阅读全文

posted @ 2021-06-18 23:09 秋华

ALINK(三十)：特征工程（九）特征选择（一）主成分分析（PcaTrainBatchOp/PcaPredictBatchOp）

摘要：主成分分析训练 (PcaTrainBatchOp) Java 类名：com.alibaba.alink.operator.batch.feature.PcaTrainBatchOp Python 类名：PcaTrainBatchOp 功能介绍主成分分析，是考察多个变量间相关性一种多元统计方法，研究阅读全文

posted @ 2021-06-18 23:04 秋华

ALINK(二十九)：特征工程（八）特征组合与交叉（三）Hash Cross特征 (HashCrossFeatureBatchOp)

摘要：Hash Cross特征 (HashCrossFeatureBatchOp) Java 类名：com.alibaba.alink.operator.batch.feature.HashCrossFeatureBatchOp Python 类名：HashCrossFeatureBatchOp 功能介绍阅读全文

posted @ 2021-06-18 22:41 秋华

ALINK(二十八)：特征工程（七）特征组合与交叉（二）Cross特征预测/训练 (CrossFeaturePredictBatchOp)

摘要：Cross特征预测 (CrossFeaturePredictBatchOp) Java 类名：com.alibaba.alink.operator.batch.feature.CrossFeaturePredictBatchOp Python 类名：CrossFeaturePredictBatchO 阅读全文

posted @ 2021-06-18 22:39 秋华

ALINK(二十七)：特征工程（六）特征组合与交叉（特征组合也叫特征交叉）（一）

摘要：0 概念特征交叉一种合成特征的方法，可以在多维特征数据集上，进行很好的非线性特征拟合。特征组合是指通过将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征。通过创建一个特征组合可以解决非线性问题。假设一个数据集有特征x1x1和x2x2，那么引入交叉特征值x3x3，使得： x3= 阅读全文

posted @ 2021-06-18 22:04 秋华

ALINK(二十六)：特征工程（五）特征离散化（五）二值化 (BinarizerBatchOp)

摘要：Java 类名：com.alibaba.alink.operator.batch.feature.BinarizerBatchOp Python 类名：BinarizerBatchOp 功能介绍给定一个阈值，将连续变量二值化。参数说明名称中文名称描述类型是否必须？默认值 select 阅读全文

posted @ 2021-06-18 21:47 秋华

PYFLINK 基础 (五):运行相关（五）PYFLINK（STREAM demo）

摘要：DataStream API Tutorial # Apache Flink offers a DataStream API for building robust, stateful streaming applications. It provides fine-grained control 阅读全文

posted @ 2021-06-18 00:31 秋华

ALINK(二十五)：特征工程（四）特征离散化（四）等宽离散化(EqualWidthDiscretizerTrainBatchOp/EqualWidthDiscretizerPredictBatchOp)

摘要：Java 类名：com.alibaba.alink.operator.batch.feature.EqualWidthDiscretizerPredictBatchOp Python 类名：EqualWidthDiscretizerPredictBatchOp 功能介绍等宽离散可以计算选定数值列的阅读全文

posted @ 2021-06-18 00:03 秋华

ALINK(二十四)：特征工程（三）特征离散化（三）分桶 (BucketizerBatchOp)

摘要：Java 类名：com.alibaba.alink.operator.batch.feature.BucketizerBatchOp Python 类名：BucketizerBatchOp 功能介绍给定切分点，将连续变量分桶，可支持单列输入或多列输入，对应需要给出单列切分点或者多列切分点。每列切阅读全文

posted @ 2021-06-17 23:57 秋华

ALINK(二十三)：特征工程（二）特征离散化（二）分位数离散化（QuantileDiscretizerPredictBatchOp/QuantileDiscretizerTrainBatchOp）

摘要：分位数离散化训练 (QuantileDiscretizerTrainBatchOp) Java 类名：com.alibaba.alink.operator.batch.feature.QuantileDiscretizerTrainBatchOp Python 类名：QuantileDiscreti 阅读全文

posted @ 2021-06-17 23:16 秋华

ALINK(二十二)：特征工程（一）特征离散化简介（一）

摘要：来源：https://blog.csdn.net/weixin_39552874/article/details/112325629 1 特征离散化方法和实现特征离散化指的是将连续特征划分离散的过程：将原始定量特征的一个区间一一映射到单一的值。在下文中，我们也将离散化过程表述为分箱(Binni 阅读全文

posted @ 2021-06-17 22:49 秋华

ALINK(二十一)：数据处理（七）数值型数据处理（三）绝对值最大化 (MaxAbsScalerTrainBatchOp/MaxAbsScalerPredictBatchOp)

摘要：绝对值最大化训练 (MaxAbsScalerTrainBatchOp) Java 类名：com.alibaba.alink.operator.batch.dataproc.MaxAbsScalerTrainBatchOp Python 类名：MaxAbsScalerTrainBatchOp 功能介绍阅读全文

posted @ 2021-06-17 21:56 秋华

ALINK(二十)：数据处理（六）数值型数据处理（二）标准化 (StandardScalerPredictBatchOp/StandardScalerTrainBatchOp )

摘要：标准化训练 (StandardScalerTrainBatchOp) Java 类名：com.alibaba.alink.operator.batch.dataproc.StandardScalerTrainBatchOp Python 类名：StandardScalerTrainBatchOp 功阅读全文

posted @ 2021-06-17 21:50 秋华

ALINK(十九)：数据处理（五）数值型数据处理（一）归一化 MinMaxScalerPredictBatchOp/MinMaxScalerTrainBatchOp

摘要：归一化批预测 (MinMaxScalerPredictBatchOp) Java 类名：com.alibaba.alink.operator.batch.dataproc.MinMaxScalerPredictBatchOp Python 类名：MinMaxScalerPredictBatchOp 阅读全文

posted @ 2021-06-16 23:38 秋华

机器学习sklearn（五）：数据处理（二）缺失值处理

摘要：来源 https://www.cnblogs.com/B-Hanan/articles/12774433.html 1 单变量缺失 import numpy as np from sklearn.impute import SimpleImputer help(SimpleImputer): cla 阅读全文

posted @ 2021-06-16 23:26 秋华

ALINK(十八)：数据处理（四）缺失值处理(二)缺失值填充训练 (ImputerTrainBatchOp)

摘要：Java 类名：com.alibaba.alink.operator.batch.dataproc.ImputerTrainBatchOp Python 类名：ImputerTrainBatchOp 功能介绍数据缺失值模型训练缺失值填充支持4种策略，最大值、最小值、均值、指定数值。当策略为指定数阅读全文

posted @ 2021-06-16 22:39 秋华

ALINK(十七)：数据处理（三）缺失值处理(一)缺失值填充批预测

摘要：Java 类名：com.alibaba.alink.operator.batch.dataproc.ImputerPredictBatchOp Python 类名：ImputerPredictBatchOp 功能介绍数据缺失值填充处理运行时需要指定缺失值模型，由ImputerTrainBatch 阅读全文

posted @ 2021-06-16 22:34 秋华

ALINK(十六)：数据导入与导出 (七)与 Dataframe 互操作

摘要：https://github.com/alibaba/Alink/blob/master/docs/pyalink/pyalink-dataframe.md 与 Dataframe 互操作 PyAlink 提供了与 pandas DataFrame 的互转操作，能够方便地使用 Python 生态中已阅读全文

posted @ 2021-06-16 22:28 秋华

ALINK(十五)：数据处理（二）数据划分 (二) 其他

摘要：分层随机采样 (StratifiedSampleBatchOp) Java 类名：com.alibaba.alink.operator.batch.dataproc.StratifiedSampleBatchOp Python 类名：StratifiedSampleBatchOp 功能介绍本算子是阅读全文

posted @ 2021-06-15 23:46 秋华

ALINK(十四)：数据处理（一）数据划分 (SplitBatchOp) 一

摘要：Java 类名：com.alibaba.alink.operator.batch.dataproc.SplitBatchOp Python 类名：SplitBatchOp 功能介绍本算子将输入数据按比例拆分为两部分。参数说明名称中文名称描述类型是否必须？默认值 fraction 拆分阅读全文

posted @ 2021-06-15 22:34 秋华

ALINK(十三)：数据导入与导出 (六)其他方式

摘要：数值队列数据源 (NumSeqSourceBatchOp) Java 类名：com.alibaba.alink.operator.batch.source.NumSeqSourceBatchOp Python 类名：NumSeqSourceBatchOp https://www.yuque.com/ 阅读全文

posted @ 2021-06-15 22:27 秋华

ALINK(十二)：数据导入与导出 (五)内存数据读入 (MemSourceBatchOp)

摘要：Java 类名：com.alibaba.alink.operator.batch.source.MemSourceBatchOp Python 类名：MemSourceBatchOp 功能介绍从内存中读取数据生成表参数说明名称中文名称描述类型是否必须？默认值代码示例 Python 阅读全文

posted @ 2021-06-15 22:23 秋华

ALINK(十一)：数据导入与导出 (四)Table数据读入 (TableSourceBatchOp)

摘要：Java 类名：com.alibaba.alink.operator.batch.source.TableSourceBatchOp Python 类名：TableSourceBatchOp 功能介绍从Table中生成BatchOperator数据参数说明名称中文名称描述类型是否必须？阅读全文

posted @ 2021-06-15 22:16 秋华

ALINK(十)：数据导入与导出 (三)Catalog读入 (CatalogSourceBatchOp)

摘要：Java 类名：com.alibaba.alink.operator.batch.source.CatalogSourceBatchOp Python 类名：CatalogSourceBatchOp 功能介绍 Catalog描述了数据库的属性和数据库的位置, 支持Mysql, Derby, Sqli 阅读全文

posted @ 2021-06-15 22:13 秋华

ALINK(九)：数据导入与导出 (二)Text文件读入 (TextSourceBatchOp)

摘要：Java 类名：com.alibaba.alink.operator.batch.source.TextSourceBatchOp Python 类名：TextSourceBatchOp 功能介绍按行读取文件数据参数说明名称中文名称描述类型是否必须？默认值 filePath 文件路径阅读全文

posted @ 2021-06-15 22:04 秋华

机器学习sklearn（四）：数据处理（一）数据集拆分（一）train_test_split

摘要：train_test_split In scikit-learn a random split into training and test sets can be quickly computed with the train_test_split helper function. Let’s l 阅读全文

posted @ 2021-06-14 22:43 秋华

机器学习sklearn（三）：加载数据集(数据导入)

摘要：1 Loading an example dataset scikit-learn comes with a few standard datasets, for instance the iris and digits datasets for classification and the dia 阅读全文

posted @ 2021-06-14 11:17 秋华

机器学习sklearn（二）：SKLEARN快速开始

摘要：来源：https://www.cnblogs.com/lianyingteng/p/7811126.html 0 简介传统的机器学习任务从开始到建模的一般流程是：获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测，分类。本文我们将依据传统机器学习的流程，看看在每一步流程中都有哪阅读全文

posted @ 2021-06-14 10:52 秋华

机器学习sklearn（一）：教程与资料

摘要：scikit-learn (sklearn) 官方文档中文版 https://sklearn.apachecn.org/ scikit-learn (sklearn) 官方文档英文版 https://scikit-learn.org/stable/ scikit-learn Tutorials ht 阅读全文

posted @ 2021-06-14 10:41 秋华

MYSQL/HIVESQL笔试题（七）：HIVESQL（七）

该文被密码保护。

posted @ 2021-06-13 19:38 秋华

leetcode算法题基础（五十）树Tree DFS

摘要：阅读全文

posted @ 2021-06-13 16:28 秋华

leetcode算法题基础（四十九）树BFS

摘要：来源https://www.bilibili.com/video/BV1T5411e7D2 阅读全文

posted @ 2021-06-13 14:46 秋华

数据结构基础（八）图Graph

摘要：今天我们就来学习“数据结构入门系列”中最后一个数据结构“图”。图是很常用的数据结构，比如计算机网络、社交网络、谷歌地图都需要用到此数据结构，掌握图的知识可以完善我们的数据结构知识体系，也能帮助我们解决算法中更为复杂的问题。简单来说，图是一种用来表示相连数据的数据结构，类似我们的社交网络，图中有很多阅读全文

posted @ 2021-06-13 14:30 秋华

数据结构基础（七）优先队列 PriorityQueue，堆Heap

摘要：来源：https://turingplanet.org/2020/03/07/%e4%bc%98%e5%85%88%e9%98%9f%e5%88%97-priorityqueue/ 在之前提到的数据结构中，如果我们想要寻找所存元素中最大值或者最小值，需要挨个查找，而本章所学的优先队列和堆会按照优先级阅读全文

posted @ 2021-06-13 14:27 秋华

数据结构基础（六）树

摘要：树的基本概念树是一种非常有用的数据结构，数据库的实现大部分都是基于树结构的，比如在一种特殊的树结构“红黑树”中，寻找任意元素的复杂度仅仅只需要log(N)。树是一种由节点组成的数据结构，但它比链表更加高级，在链表中，一个节点连接着另一个节点，树也是由许多的节点构成的，唯一的区别就是一个树节点可以连阅读全文

posted @ 2021-06-13 14:20 秋华

数据结构基础（五）哈希表的概念

摘要：哈希表的概念在前几章的学习中，我们已经了解了数组和链表的基本特性，不管是数组还是链表，如果我们想要寻找一个特定的数值，时间复杂度都为O(n)。那有什么办法用最快的速度来找到一个特定的元素呢，今天我们就来学习工业界中常用的数据结构“哈希表”，在哈希表中，不管是寻找、删除、增加一个新元素，时间复杂度都阅读全文

posted @ 2021-06-13 14:15 秋华

数据结构基础（四）堆栈

摘要：在这一章我们来了解两个很特殊的数据结构：堆栈 (Stack) 和队列 (Queue)。这两个数据结构类似垃圾桶和队伍，栈是先进后出型，队列是先进先出型。堆栈（Stack）概念堆栈是一种常用的数据结构，这种数据结构的存储方式和垃圾桶一样，后面放进去的元素可以先取出来，而最早放入的元素会被压在最下阅读全文

posted @ 2021-06-13 14:12 秋华

数据结构基础（三）链表

摘要：链表的概念我们知道数组是很常用的数据储存方式，而链表就是继数组之后，第二种最通用的数据储存方式了。数组需要存放在连续的空间，计算机很容易实现。而链表的好处是不用确定空间长度，不够的时候，直接申请新的节点，帮助插入。所以链表可以更灵活地进行内存分配。链表（linked list）是一种序列形的数据阅读全文

posted @ 2021-06-13 14:06 秋华

数据结构基础（二）排序算法

摘要：排序算法搜索是计算机中非常重要的步骤，但是从无序的数据中寻找特定的数字往往很难，我们之前提到的二分查找只能运用在排好序的数组中。所以排序算法是一个很重要的工作，如果我们能够将数值排好序，那么当我们寻找特定数值的时候，能省下不少功夫。排序算法有很多，每种排序算法各有优缺点：在这章节中，我们就来学阅读全文

posted @ 2021-06-13 13:58 秋华

数据结构基础（一）时间空间复杂度分析

摘要：来源：https://turingplanet.org/2020/02/03/%e3%80%90%e6%95%b0%e6%8d%ae%e7%bb%93%e6%9e%84%e5%92%8c%e7%ae%97%e6%b3%953%e3%80%91/ 复杂度分析算法本质上是一连串的计算步骤。对于同一个问阅读全文

posted @ 2021-06-13 13:54 秋华

MYSQL/HIVESQL笔试题（六）：HIVESQL（六）

该文被密码保护。

posted @ 2021-06-13 13:07 秋华

MYSQL/HIVESQL笔试题（五）：HIVESQL（五）

该文被密码保护。

posted @ 2021-06-12 22:51 秋华

MYSQL/HIVESQL笔试题（四）：HIVESQL（四）

该文被密码保护。

posted @ 2021-06-12 22:45 秋华

MYSQL/HIVESQL笔试题（三）：HIVESQL（三）

该文被密码保护。

posted @ 2021-06-12 22:36 秋华

MYSQL/HIVESQL笔试题（二）：HIVESQL（二）

该文被密码保护。

posted @ 2021-06-12 22:27 秋华

MYSQL/HIVESQL笔试题（一）：HIVESQL（一）分组求TopN/行转列/列转行

该文被密码保护。

posted @ 2021-06-12 21:50 秋华

ALINK(七)：ALINK使用技巧(二)

摘要：4 Alink如何读写文本数据【Alink使用技巧】 Alink文本读写组件使用起来非常简单，每个换行符对应一条数据，只需指定文件的路径即可。譬如，我们想看一下iris数据，但不想花时间详细定义其数据列名及类型，就可以将其每条数据简单地看作一行文本，使用TextSourceBatchOp，并设置文件阅读全文

posted @ 2021-06-12 14:02 秋华

Hive实战(6)：完整案例（二）业务分析

摘要：1 统计视频观看数 Top10 思路：使用 order by 按照 views 字段做一个全局排序即可，同时我们设置只显示前 10 条。最终代码： SELECT videoId, views FROM gulivideo_orc ORDER BY views DESC LIMIT 10; 2 统计阅读全文

posted @ 2021-06-12 12:28 秋华

Hive实战(5)：完整案例（一）准备

摘要：1 需求描述统计硅谷影音视频网站的常规指标，各种 TopN 指标： -- 统计视频观看数 Top10 -- 统计视频类别热度 Top10 -- 统计出视频观看数最高的 20 个视频的所属类别以及类别包含 Top20 视频的个数 -- 统计视频观看数 Top50 所关联视频的所属类别排序 -- 统计阅读全文

posted @ 2021-06-12 12:24 秋华

Mysql基础（二十四)：数据类型/常见约束

摘要：一数据类型 1 数值型 1、整型tinyint、smallint、mediumint、int/integer、bigint1 2 3 4 8 特点：①都可以设置无符号和有符号，默认有符号，通过unsigned设置无符号②如果超出了范围，会报out or range异常，插入临界值③长度可以不指定，阅读全文

posted @ 2021-06-12 10:44 秋华

MYSQL基础（23)：视图/存储过程

该文被密码保护。

posted @ 2021-06-12 10:20 秋华

数据可视化基础专题（三十四）：Pandas基础（十四）分组（二）Aggregation/apply

摘要：Aggregation Once the GroupBy object has been created, several methods are available to perform a computation on the grouped data. These operations are 阅读全文

posted @ 2021-06-11 22:15 秋华

MYSQL基础（22)：语法（7）DDL 表操作：创建，删除，修改，查询表

该文被密码保护。

posted @ 2021-06-11 00:48 秋华

MYSQL基础（10)：函数（3）分组函数

该文被密码保护。

posted @ 2021-06-11 00:34 秋华

MYSQL基础（9)：函数（2）流程控制函数（IF/CASE WHEN）

该文被密码保护。

posted @ 2021-06-11 00:32 秋华

MYSQL基础（7)：函数（1）常见函数/单行函数分类/数学函数/日期函数/其他函数

该文被密码保护。

posted @ 2021-06-11 00:29 秋华

MYSQL基础（6)：语法(6)DQL(6)分页查询/联合查询

该文被密码保护。

posted @ 2021-06-11 00:27 秋华

MYSQL基础（5)：语法(5)DQL(5)子查询

该文被密码保护。

posted @ 2021-06-11 00:25 秋华

MYSQL基础（4)：语法(4)DQL(4)连接查询

该文被密码保护。

posted @ 2021-06-11 00:24 秋华

MYSQL基础（3)：语法(3)DQL(3)分组查询

该文被密码保护。

posted @ 2021-06-11 00:22 秋华

MYSQL基础（2)：语法(2)DQL(2)排序查询

该文被密码保护。

posted @ 2021-06-11 00:21 秋华

MYSQL基础（1)：语法(1)DQL(1)基础查询/条件查询/模糊查询

该文被密码保护。

posted @ 2021-06-11 00:19 秋华

数据可视化基础专题（三十五）：Pandas基础（十五）时间序列

摘要：https://www.pypandas.cn/docs/user_guide/timeseries.html https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries 阅读全文

posted @ 2021-06-11 00:06 秋华

数据可视化基础专题（三十三）：Pandas基础（十三） Computational tools(一)

摘要：Statistical functions #Percent change Series and DataFrame have a method pct_change() (opens new window)to compute the percent change over a given num 阅读全文

posted @ 2021-06-11 00:01 秋华

数据可视化基础专题（三十二）：Pandas基础（十二）分组（一）Splitting an object into groups

摘要：1 简介 Group by: split-apply-combine By “group by” we are referring to a process involving one or more of the following steps: Splitting the data into g 阅读全文

posted @ 2021-06-10 23:58 秋华

数据可视化基础专题（三十）：Pandas基础（十）合并（三）merge（二）

摘要：7 Joining key columns on an index join() takes an optional on argument which may be a column or multiple column names, which specifies that the passed 阅读全文

posted @ 2021-06-10 23:53 秋华

数据可视化基础专题（二十九）：Pandas基础（九）合并（二）merge（一）

摘要：Database-style DataFrame or named Series joining/merging 1 summary pandas provides a single function, merge(), as the entry point for all standard dat 阅读全文

posted @ 2021-06-10 23:49 秋华

数据可视化基础专题（二十八）：Pandas基础（八）合并（一）concat

摘要：一合并 1 Concatenating objects The concat() function (in the main pandas namespace) does all of the heavy lifting of performing concatenation operations 阅读全文

posted @ 2021-06-10 22:48 秋华

PYFLINK 基础 (四):运行相关（四）PYFLINK 依赖管理

摘要：依赖管理依赖文件 table_env.add_python_file(file_path) 依赖存档（打包）文件 table_env.add_python_archive("py_env.zip", "myenv") # the files contained in the archive fil 阅读全文

posted @ 2021-06-09 23:53 秋华

PYFLINK基础 (三):运行相关（三）PYFLINK 开发环境准备

摘要：来源：https://developer.aliyun.com/article/769981 http://bubuko.com/infodetail-3554826.html 1 开发环境依赖 PyFlink作业的开发和运行需要依赖Python 3.5/3.6/3.7 版本和Java 8或者Jav 阅读全文

posted @ 2021-06-09 23:40 秋华

PYFLINK 基础 (二):运行相关（二） PYFLINK 集群任务提交

摘要：来源：https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/deployment/cli/#submitting-pyflink-jobs Currently, users are able to submit a 阅读全文

posted @ 2021-06-09 23:36 秋华

摘要：来源：https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/dev/python/table_api_tutorial/ 一安装环境与安装您需要一台具有以下功能的计算机： Java 8 or 11 Python 阅读全文

posted @ 2021-06-09 23:25 秋华

ALINK(六)：PYALINK与PYLINK一同使用

摘要：https://gitee.com/517424787/Alink/blob/master/docs/pyalink/pyalink-pyflink.md 与 PyFlink 一同使用在最新的发布中，PyAlink 与 PyFlink 进行了一定的整合。用户在新版本的 PyAlink 中能够使用阅读全文

posted @ 2021-06-09 23:00 秋华

ALINK(五)：ALINK使用技巧(一)

摘要：来源:https://www.yuque.com/pinshu/alink_guide/czg4cx 1 Alink Schema String简介【Alink使用技巧】 Alink在进行表数据读取和转换时，有时需要显示声明数据表的列名和列类型信息，即Schema信息。Schema String就是阅读全文

posted @ 2021-06-09 22:58 秋华

ALINK(四)：Flink 集群部署 Alink

摘要：来源：https://zhuanlan.zhihu.com/p/165050101 由于 Alink 可以通过 Java 和 Python 两种方式提交，建议在集群部署的时候将相关 Jar 包一起部署上去。Alink 虽然没有单独提供集群部署 Jar 包的下载，但是所需 Jar 包与 PyAlink 阅读全文

posted @ 2021-06-09 00:01 秋华

ALINK(三)：PYALINK 以及ALINK 任务运行（本地模式与集群模式）

摘要：一前言目前不支持pyflink-shell.sh的任何模式。只支持jupyter notebook以及python shell以及jar包提交的方式. 下面是来自官方钉钉群的回复: 二 jupyter notebook 下 1 本地模式使用方法创建本地运行环境：useLocalEnv(par 阅读全文

posted @ 2021-06-08 23:46 秋华

ALINK(二)：使用 Maven 快速构建 Alink 项目（JAVA开发环境）

摘要：来源：https://www.yuque.com/pinshu/alink_guide/mm66ev 第一步，创建项目在InterlliJ IDEA中选择创建新项目，并选择Maven，如下图所示：使用默认选项，不用勾选"Create from archetype"，点击"Next"按钮，进入下图阅读全文

posted @ 2021-06-08 23:36 秋华

ALINK(一)：PYALINK安装（win10）

摘要：一安装最新版本PyAlink pip install -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple pyalink 报错的话，可能是网络问题。多试几次或者单独安装报错的包二验证示例（单机运行） 1 阅读全文

posted @ 2021-06-08 22:47 秋华

leetcode算法题基础（四十八）分治法总结（三）

摘要：来源:https://blog.csdn.net/wei18791957243/article/details/109061869 1.什么是分治算法？分治算法就是对一个问题采取各个击破的方法，将一个规模为N的问题分解为K个规模较小的子问题，这些子问题相互独立且与原问题性质相同。只要求出子问题的解阅读全文

posted @ 2021-06-07 21:53 秋华

leetcode算法题基础（四十七）分治法总结（二）

摘要：来源：https://zhuanlan.zhihu.com/p/72734354 分治法，字面意思是“分而治之”，就是把一个复杂的1问题分成两个或多个相同或相似的子问题，再把子问题分成更小的子问题直到最后子问题可以简单地直接求解，原问题的解即子问题的解的合并，这个思想是很多高效算法的基础，例如排序算阅读全文

posted @ 2021-06-07 21:45 秋华

leetcode算法题基础（四十六）分治法总结（一）

摘要：主要思想分治算法的主要思想是将原问题递归地分成若干个子问题，直到子问题满足边界条件，停止递归。将子问题逐个击破(一般是同种方法)，将已经解决的子问题合并，最后，算法会层层合并得到原问题的答案。分治算法的步骤分：递归地将问题分解为各个的子问题(性质相同的、相互独立的子问题)；治：将这些规模更小阅读全文

posted @ 2021-06-07 21:41 秋华

数据挖掘实践（54）：xgboost 推导与实例

该文被密码保护。

posted @ 2021-06-04 23:22 秋华

数据挖掘实践（53）：adaboost 推导实例（二）

该文被密码保护。

posted @ 2021-06-04 23:04 秋华

数据挖掘实践（52）：adaboost 推导实例（一）

该文被密码保护。

posted @ 2021-06-04 22:48 秋华

数据挖掘实践（51）：决策树cart剪枝实例

该文被密码保护。