06 2021 档案
摘要:0 简介 1 混淆矩阵(Confusion Matrix) 1.1 模型整体效果:准确率 1.2 捕捉少数类的艺术:精确度,召回率和F1 score #所有判断正确并确实为1的样本 / 所有被判断为1的样本 #对于没有class_weight,没有做样本平衡的灰色决策边界来说: (y[y == cl
阅读全文
摘要:1 SVC用于二分类的原理复习 2 参数C的理解进阶 import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap from sklearn import svm fro
阅读全文
摘要:1 SVC的参数列表 2 SVC的属性列表 3 SVC的接口列表
阅读全文
摘要:2 非线性SVM与核函数 2.1 SVC在非线性数据上的推广 2.2 重要参数kernel clf = SVC(kernel = "rbf").fit(X,y) plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap="rainbow") plot_svc_decision_
阅读全文
摘要:class sklearn.svm.SVC (C=1.0, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True,probability=False, tol=0.001, cache_size=200,
阅读全文
摘要:1 支持向量机分类器是如何工作的 2 支持向量机原理的三层理解 3 sklearn中的支持向量机
阅读全文
摘要:1 KMeans参数列表 2 KMeans属性列表 3 KMeans接口列表
阅读全文
摘要:1. 导入需要的库 import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.metrics import pairwise_distances_argmin
阅读全文
摘要:class sklearn.cluster.KMeans (n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001,precompute_distances=’auto’, verbose=0, random_state
阅读全文
摘要:1 KMeans是如何工作的 2 簇内误差平方和的定义和解惑 3 KMeans算法的时间复杂度
阅读全文
摘要:1 无监督学习与聚类算法 聚类vs分类 2 sklearn中的聚类算法 聚类算法在sklearn中有两种表现形式,一种是类(和我们目前为止学过的分类算法以及数据预处理方法们都一样),需要实例化,训练并使用接口和属性来调用结果。另一种是函数(function),只需要输入特征矩阵和超参数,即可返回聚类
阅读全文
摘要:1 逻辑回归的参数列表 2 逻辑回归的属性列表 3 逻辑回归的接口列表
阅读全文
摘要:0 案例:用逻辑回归制作评分卡 1 导库,获取数据 %matplotlib inline import numpy as np import pandas as pd from sklearn.linear_model import LogisticRegression as LR #其实日常在导库
阅读全文
摘要:3 梯度下降:重要参数max_iter 3.1 梯度下降求解逻辑回归 3.2 梯度下降的概念与解惑 3.3 步长的概念与解惑 l2 = [] l2test = [] Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y,test_size=0.3,r
阅读全文
摘要:class sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0,fifit_intercept=True, intercept_scaling=1, class_weight=Non
阅读全文
摘要:1 名为“回归”的分类器 2 为什么需要逻辑回归 3 sklearn中的逻辑回归
阅读全文
摘要:1 PCA参数列表 2 PCA属性列表 3 PCA接口列表
阅读全文
摘要:PCA对手写数字数据集的降维 还记得我们上一周在讲特征工程时,使用的手写数字的数据集吗?数据集结构为(42000, 784),用KNN跑一次半小时,得到准确率在96.6%上下,用随机森林跑一次12秒,准确率在93.8%,虽然KNN效果好,但由于数据量太大,KNN计算太缓慢,所以我们不得不选用随机森林
阅读全文
摘要:3 PCA中的SVD 3.1 PCA中的SVD哪里来? PCA(2).fit(X).components_ PCA(2).fit(X).components_.shape 3.2 重要参数svd_solver 与 random_state 3.3 重要属性components_ 1. 导入需要的库和
阅读全文
摘要:0 PCA与SVD 1 降维究竟是怎样实现? class sklearn.decomposition.PCA (n_components=None, copy=True, whiten=False, svd_solver=’auto’, tol=0.0,iterated_power=’auto’,
阅读全文
摘要:1 从什么叫“维度”说开来 我们不断提到一些语言,比如说:随机森林是通过随机抽取特征来建树,以避免高维计算;再比如说,sklearn中导入特征矩阵,必须是至少二维;上周我们讲解特征工程,还特地提到了,特征选择的目的是通过降维来降低算法的计算成本……这些语言都很正常地被我用来使用,直到有一天,一个小伙
阅读全文
摘要:1 Embedded嵌入法 from sklearn.feature_selection import SelectFromModel from sklearn.ensemble import RandomForestClassifier as RFC RFC_ = RFC(n_estimators
阅读全文
摘要:当数据预处理完成后,我们就要开始进行特征工程了。 #导入数据,让我们使用digit recognizor数据来一展身手 import pandas as pd data = pd.read_csv(r"C:\work\learnbetter\micro-class\week 3 Preprocess
阅读全文
摘要:1 处理分类型特征:编码与哑变量 from sklearn.preprocessing import LabelEncoder y = data.iloc[:,-1] #要输入的是标签,不是特征矩阵,所以允许一维 le = LabelEncoder() #实例化 le = le.fit(y) #导入
阅读全文
摘要:1 数据无量纲化 from sklearn.preprocessing import MinMaxScaler data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]] #不太熟悉numpy的小伙伴,能够判断data的结构吗? #如果换成表是什么样子? import
阅读全文
摘要:1 Bagging vs Boosting 2 RFC的参数列表 3 RFC的属性列表 4 RFC的接口列表
阅读全文
摘要:来源:https://zhuanlan.zhihu.com/p/115646862 之前一直对pandas和numpy里的axis 参数理解的不透彻,今天把它写下来加深印象。 axis = 0 是代表跨行,而axis = 1 是代表跨列,想明白这一点,对于其他的操作就都想明白了。 numpy 官方文
阅读全文
摘要:案例中,往往使用真实数据,为什么我们要使用sklearn自带的数据呢?因为真实数据在随机森林下的调参过程,往往非常缓慢。真实数据量大,维度高,在使用随机森林之前需要一系列的处理,因此不太适合用来做直播中的案例演示。在本章,我为大家准备了kaggle上下载的辨别手写数字的数据,有4W多条记录700多个
阅读全文
摘要:class sklearn.ensemble.RandomForestClassifier(n_estimators=’10’, criterion=’gini’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_
阅读全文
摘要:class sklearn.ensemble.RandomForestRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_
阅读全文
摘要:1 概述 1.1 集成算法概述 集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销
阅读全文
摘要:我们在红酒数据集上画出了一棵树,并且展示了多个参数会对树形成这样的影响,接下来,我们将在不同结构的数据集上测试一下决策树的效果,让大家更好地理解决策树。 1. 导入需要的库 import numpy as np import matplotlib.pyplot as plt from matplot
阅读全文
摘要:1 决策树的优缺点 决策树优点 1. 易于理解和解释,因为树木可以画出来被看见 2. 需要很少的数据准备。其他很多算法通常都需要数据规范化,需要创建虚拟变量并删除空值等。但请注意,sklearn中的决策树模块不支持对缺失值的处理。 3. 使用树的成本(比如说,在预测数据的时候)是用于训练树的数据点的
阅读全文
摘要:泰坦尼克号的沉没是世界上最严重的海难事故之一,今天我们通过分类树模型来预测一下哪些人可能成为幸存者。数据集来着https://www.kaggle.com/c/titanic,数据集会随着代码一起提供给大家,大家可以在下载页面拿到,或者到群中询问。数据集包含两个csv格式文件,data为我们接下来要
阅读全文
摘要:class sklearn.tree.DecisionTreeRegressor(*, criterion='mse', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_frac
阅读全文
摘要:class sklearn.tree.DecisionTreeClassifier(*, criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fr
阅读全文
摘要:1 概述 1.1 决策树是如何工作的 决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集
阅读全文
摘要:来源:https://blog.csdn.net/qq_38942551/article/details/99134783 记录一下遇到的问题:x509:certificate has expired or is not yet valid 背景:主机向镜像仓库传镜像的时候,出现错误提示 镜像仓库:
阅读全文
摘要:变换器(Transformers)通常与分类器,回归器或其他的学习器组合在一起以构建复合估计器。 完成这件事的最常用工具是 Pipeline。 Pipeline 经常与 FeatureUnion 结合起来使用。 FeatureUnion 用于将变换器(transformers)的输出串联到复合特征空
阅读全文
摘要:在训练完 scikit-learn 模型之后,最好有一种方法来将模型持久化以备将来使用,而无需重新训练。 以下部分为您提供了有关如何使用 pickle 来持久化模型的示例。 在使用 pickle 序列化时,我们还将回顾一些安全性和可维护性方面的问题。 pickle的另一种方法是使用相关项目中列出的模
阅读全文
摘要:超参数,即不直接在估计器内学习的参数。在 scikit-learn 包中,它们作为估计器类中构造函数的参数进行传递。典型的示例有:用于支持向量分类器的 C 、kernel 和 gamma ,用于Lasso的 alpha 等。 搜索超参数空间以便获得最好 交叉验证 分数的方法是可能的而且是值得提倡的。
阅读全文
摘要:聚类指标 该 sklearn.metrics 模块实现了一些 loss, score 和 utility 函数. 更多信息请参阅 聚类性能度量 部分, 例如聚类, 以及用于二分聚类的 Biclustering 评测. 虚拟估计 在进行监督学习的过程中,简单的 sanity check(理性检查)包括
阅读全文
摘要:该 sklearn.metrics 模块实现了一些 loss, score 以及 utility 函数以测量 regression(回归)的性能. 其中一些已经被加强以处理多个输出的场景: mean_squared_error, mean_absolute_error, explained_vari
阅读全文
摘要:在多分类学习中,每个样本可以具有与其相关联的任何数量的真实标签。目标是给予高分,更好地评价真实标签。 1. 覆盖误差 coverage_error 函数计算必须包含在最终预测中的标签的平均数,以便预测所有真正的标签。 如果您想知道有多少 top 评分标签,您必须通过平均来预测,而不会丢失任何真正的标
阅读全文
摘要:分类指标 sklearn.metrics 模块实现了几个 loss, score, 和 utility 函数来衡量 classification (分类)性能。 某些 metrics (指标)可能需要 positive class (正类),confidence values(置信度值)或 bina
阅读全文
摘要:有 3 种不同的 API 用于评估模型预测的质量: Estimator score method(估计器得分的方法): Estimators(估计器)有一个 score(得分) 方法,为其解决的问题提供了默认的 evaluation criterion (评估标准)。 在这个页面上没有相关讨论,但是
阅读全文
摘要:接下来的部分列出了一些用于生成索引标号,用于在不同的交叉验证策略中生成数据划分的工具。 1. 交叉验证迭代器–循环遍历数据 假设一些数据是独立的和相同分布的 (i.i.d) 假定所有的样本来源于相同的生成过程,并假设生成过程没有记忆过去生成的样本。 在这种情况下可以使用下面的交叉验证器。 注意 尽管
阅读全文
摘要:计算交叉验证的指标 使用交叉验证最简单的方法是在估计器和数据集上调用 cross_val_score 辅助函数。 下面的示例展示了如何通过分割数据,拟合模型和计算连续 5 次的分数(每次不同分割)来估计 linear kernel 支持向量机在 iris 数据集上的精度: >>> from skle
阅读全文
摘要:学习预测函数的参数,并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数,但对于尚未出现过的数据它则无法预测出任何有用的信息。 这种情况称为 overfitting(过拟合). 为了避免这种情况,在进行(监督)机器学习实验时,通常取出部分可利用数据作为 test
阅读全文
摘要:另外一种将标称型特征转换为能够被scikit-learn中模型使用的编码是one-of-K, 又称为 独热码或dummy encoding。 这种编码类型已经在类OneHotEncoder中实现。该类把每一个具有n_categories个可能取值的categorical特征变换为长度为n_categ
阅读全文
摘要:在机器学习中,特征经常不是连续的数值型的而是标称型的(categorical)。举个示例,一个人的样本具有特征["male", "female"], ["from Europe", "from US", "from Asia"], ["uses Firefox", "uses Chrome", "u
阅读全文
摘要:LabelEncoder 是一个可以用来将标签规范化的工具类,它可以将标签的编码值范围限定在[0,n_classes-1]. 这在编写高效的Cython程序时是非常有用的. LabelEncoder 可以如下使用: >>> from sklearn import preprocessing >>>
阅读全文
摘要:Python有包可以直接实现特征选择,也就是看自变量对因变量的相关性。今天我们先开看一下如何用卡方检验实现特征选择。 1. 首先import包和实验数据: from sklearn.feature_selection import SelectKBest from sklearn.feature_s
阅读全文
摘要:卡方检验,统计学的方法,现在机器学习看变量的时候也会用到。 很多不知道的人,一听到这个名词,会马上联想到, 啊?还要拿张卡来检验吗? 其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在某个变量(或特征)值是不是和应变量有显著关系。 我常听到运营和分析师这样的对话,
阅读全文
摘要:1. 准确的PCA和概率解释(Exact PCA and probabilistic interpretation) PCA 用于对具有一组连续正交分量(Orthogonal component 译注: 或译为正交成分,下出现 成分 和 分量 是同意词)的多变量数据集进行方差最大化的分解。 在 sc
阅读全文
摘要:特征哈希(相当于一种降维技巧) 类 FeatureHasher 是一种高速,低内存消耗的向量化方法,它使用了特征散列技术 ,或可称为 “散列法” (hashing trick)的技术。 代替在构建训练中遇到的特征的哈希表,如向量化所做的那样 FeatureHasher 将哈希函数应用于特征,以便直接
阅读全文
摘要:来源:https://www.freesion.com/article/24301262498/ 本文介绍的是一种面对高基数类别特征的普适性方法:特征哈希(FeatureHasher)。目前这只是本人的一种想法,具体效果如何还需要在实际项目中验证。 如果说独热编码后新生成的特征数量会跟随类别数量而变
阅读全文
摘要:在机器学习中,通过增加一些输入数据的非线性特征来增加模型的复杂度通常是有效的。一个简单通用的办法是使用多项式特征,这可以获得特征的更高维度和互相间关系的项。这在 PolynomialFeatures 中实现: >>> import numpy as np >>> from sklearn.prepr
阅读全文
摘要:有两种类型的转换是可用的:分位数转换和幂函数转换。分位数和幂变换都基于特征的单调变换,从而保持了每个特征值的秩。 通过执行秩变换,分位数变换平滑了异常分布,并且比缩放方法受异常值的影响更小。但是它的确使特征间及特征内的关联和距离失真了。 幂变换则是一组参数变换,其目的是将数据从任意分布映射到接近高斯
阅读全文
摘要:在机器学习中,想要将一个已有的 Python 函数转化为一个转换器来协助数据清理或处理。可以使用 FunctionTransformer 从任意函数中实现一个转换器。例如,在一个管道中构建一个实现日志转换的转化器,这样做: >>> import numpy as np >>> from sklear
阅读全文
摘要:特征二值化 是 将数值特征用阈值过滤得到布尔值 的过程。这对于下游的概率型模型是有用的,它们假设输入数据是多值 伯努利分布(Bernoulli distribution) 。例如这个示例 sklearn.neural_network.BernoulliRBM 。 即使归一化计数(又名术语频率)和TF
阅读全文
摘要:离散化 (Discretization) (有些时候叫 量化(quantization) 或 装箱(binning)) 提供了将连续特征划分为离散特征值的方法。 某些具有连续特征的数据集会受益于离散化,因为 离散化可以把具有连续属性的数据集变换成只有名义属性(nominal attributes)的
阅读全文
摘要:The preprocessing module provides the StandardScaler utility class, which is a quick and easy way to perform the following operation on an array-like
阅读全文
摘要:来源:https://www.cntofu.com/book/170/docs/59.md 1 将特征缩放至特定范围内 一种标准化是将特征缩放到给定的最小值和最大值之间,通常在零和一之间,或者也可以将每个特征的最大绝对值转换至单位大小。可以分别使用 MinMaxScaler 和 MaxAbsScal
阅读全文
摘要:独热编码训练 (OneHotTrainBatchOp) Java 类名:com.alibaba.alink.operator.batch.feature.OneHotTrainBatchOp Python 类名:OneHotTrainBatchOp 功能介绍 one-hot编码,也称独热编码,对于每
阅读全文
摘要:来源:https://www.cnblogs.com/cgmcoding/p/14360420.html 其中count encoder,one-hot encoder,label encoder主要针对低基数无序特征,比如性别。可以采用target encoder或者mean encoder的方法
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.feature.FeatureHasherBatchOp Python 类名:FeatureHasherBatchOp 功能介绍 将多个特征组合成一个特征向量。 参数说明 名称 中文名称 描述 类型 是否必须? 默认值
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.feature.VectorChiSqSelectorBatchOp Python 类名:VectorChiSqSelectorBatchOp 功能介绍 针对vector数据,进行特征筛选 参数说明 名称 中文名称 描
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.feature.ChiSqSelectorBatchOp Python 类名:ChiSqSelectorBatchOp 功能介绍 针对table数据,进行特征筛选 参数说明 名称 中文名称 描述 类型 是否必须? 默认
阅读全文
摘要:主成分分析训练 (PcaTrainBatchOp) Java 类名:com.alibaba.alink.operator.batch.feature.PcaTrainBatchOp Python 类名:PcaTrainBatchOp 功能介绍 主成分分析,是考察多个变量间相关性一种多元统计方法,研究
阅读全文
摘要:Hash Cross特征 (HashCrossFeatureBatchOp) Java 类名:com.alibaba.alink.operator.batch.feature.HashCrossFeatureBatchOp Python 类名:HashCrossFeatureBatchOp 功能介绍
阅读全文
摘要:Cross特征预测 (CrossFeaturePredictBatchOp) Java 类名:com.alibaba.alink.operator.batch.feature.CrossFeaturePredictBatchOp Python 类名:CrossFeaturePredictBatchO
阅读全文
摘要:0 概念 特征交叉一种合成特征的方法,可以在多维特征数据集上,进行很好的非线性特征拟合。 特征组合是指通过将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征。通过创建一个特征组合可以解决非线性问题。 假设一个数据集有特征x1x1和x2x2,那么引入交叉特征值x3x3,使得: x3=
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.feature.BinarizerBatchOp Python 类名:BinarizerBatchOp 功能介绍 给定一个阈值,将连续变量二值化。 参数说明 名称 中文名称 描述 类型 是否必须? 默认值 select
阅读全文
摘要:DataStream API Tutorial # Apache Flink offers a DataStream API for building robust, stateful streaming applications. It provides fine-grained control
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.feature.EqualWidthDiscretizerPredictBatchOp Python 类名:EqualWidthDiscretizerPredictBatchOp 功能介绍 等宽离散可以计算选定数值列的
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.feature.BucketizerBatchOp Python 类名:BucketizerBatchOp 功能介绍 给定切分点,将连续变量分桶,可支持单列输入或多列输入,对应需要给出单列切分点或者多列切分点。 每列切
阅读全文
摘要:分位数离散化训练 (QuantileDiscretizerTrainBatchOp) Java 类名:com.alibaba.alink.operator.batch.feature.QuantileDiscretizerTrainBatchOp Python 类名:QuantileDiscreti
阅读全文
摘要:来源:https://blog.csdn.net/weixin_39552874/article/details/112325629 1 特征离散化方法和实现 特征离散化指的是将连续特征划分离散的过程:将原始定量特征的一个区间一一映射到单一的值。 在下文中,我们也将离散化过程表述为 分箱(Binni
阅读全文
摘要:绝对值最大化训练 (MaxAbsScalerTrainBatchOp) Java 类名:com.alibaba.alink.operator.batch.dataproc.MaxAbsScalerTrainBatchOp Python 类名:MaxAbsScalerTrainBatchOp 功能介绍
阅读全文
摘要:标准化训练 (StandardScalerTrainBatchOp) Java 类名:com.alibaba.alink.operator.batch.dataproc.StandardScalerTrainBatchOp Python 类名:StandardScalerTrainBatchOp 功
阅读全文
摘要:归一化批预测 (MinMaxScalerPredictBatchOp) Java 类名:com.alibaba.alink.operator.batch.dataproc.MinMaxScalerPredictBatchOp Python 类名:MinMaxScalerPredictBatchOp
阅读全文
摘要:来源 https://www.cnblogs.com/B-Hanan/articles/12774433.html 1 单变量缺失 import numpy as np from sklearn.impute import SimpleImputer help(SimpleImputer): cla
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.dataproc.ImputerTrainBatchOp Python 类名:ImputerTrainBatchOp 功能介绍 数据缺失值模型训练 缺失值填充支持4种策略,最大值、最小值、均值、指定数值。当策略为指定数
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.dataproc.ImputerPredictBatchOp Python 类名:ImputerPredictBatchOp 功能介绍 数据缺失值填充处理 运行时需要指定缺失值模型,由ImputerTrainBatch
阅读全文
摘要:https://github.com/alibaba/Alink/blob/master/docs/pyalink/pyalink-dataframe.md 与 Dataframe 互操作 PyAlink 提供了与 pandas DataFrame 的互转操作,能够方便地使用 Python 生态中已
阅读全文
摘要:分层随机采样 (StratifiedSampleBatchOp) Java 类名:com.alibaba.alink.operator.batch.dataproc.StratifiedSampleBatchOp Python 类名:StratifiedSampleBatchOp 功能介绍 本算子是
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.dataproc.SplitBatchOp Python 类名:SplitBatchOp 功能介绍 本算子将输入数据按比例拆分为两部分。 参数说明 名称 中文名称 描述 类型 是否必须? 默认值 fraction 拆分
阅读全文
摘要:数值队列数据源 (NumSeqSourceBatchOp) Java 类名:com.alibaba.alink.operator.batch.source.NumSeqSourceBatchOp Python 类名:NumSeqSourceBatchOp https://www.yuque.com/
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.source.MemSourceBatchOp Python 类名:MemSourceBatchOp 功能介绍 从内存中读取数据生成表 参数说明 名称 中文名称 描述 类型 是否必须? 默认值 代码示例 Python
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.source.TableSourceBatchOp Python 类名:TableSourceBatchOp 功能介绍 从Table中生成BatchOperator数据 参数说明 名称 中文名称 描述 类型 是否必须?
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.source.CatalogSourceBatchOp Python 类名:CatalogSourceBatchOp 功能介绍 Catalog描述了数据库的属性和数据库的位置, 支持Mysql, Derby, Sqli
阅读全文
摘要:Java 类名:com.alibaba.alink.operator.batch.source.TextSourceBatchOp Python 类名:TextSourceBatchOp 功能介绍 按行读取文件数据 参数说明 名称 中文名称 描述 类型 是否必须? 默认值 filePath 文件路径
阅读全文
摘要:train_test_split In scikit-learn a random split into training and test sets can be quickly computed with the train_test_split helper function. Let’s l
阅读全文
摘要:1 Loading an example dataset scikit-learn comes with a few standard datasets, for instance the iris and digits datasets for classification and the dia
阅读全文
摘要:来源:https://www.cnblogs.com/lianyingteng/p/7811126.html 0 简介 传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪
阅读全文
摘要:scikit-learn (sklearn) 官方文档中文版 https://sklearn.apachecn.org/ scikit-learn (sklearn) 官方文档英文版 https://scikit-learn.org/stable/ scikit-learn Tutorials ht
阅读全文
摘要:来源https://www.bilibili.com/video/BV1T5411e7D2
阅读全文
摘要:今天我们就来学习“数据结构入门系列”中最后一个数据结构“图”。图是很常用的数据结构,比如计算机网络、社交网络、谷歌地图都需要用到此数据结构,掌握图的知识可以完善我们的数据结构知识体系,也能帮助我们解决算法中更为复杂的问题。 简单来说,图是一种用来表示相连数据的数据结构,类似我们的社交网络,图中有很多
阅读全文
摘要:来源:https://turingplanet.org/2020/03/07/%e4%bc%98%e5%85%88%e9%98%9f%e5%88%97-priorityqueue/ 在之前提到的数据结构中,如果我们想要寻找所存元素中最大值或者最小值,需要挨个查找,而本章所学的优先队列和堆会按照优先级
阅读全文
摘要:树的基本概念 树是一种非常有用的数据结构,数据库的实现大部分都是基于树结构的,比如在一种特殊的树结构“红黑树”中,寻找任意元素的复杂度仅仅只需要log(N)。树是一种由节点组成的数据结构,但它比链表更加高级,在链表中,一个节点连接着另一个节点,树也是由许多的节点构成的,唯一的区别就是一个树节点可以连
阅读全文
摘要:哈希表的概念 在前几章的学习中,我们已经了解了数组和链表的基本特性,不管是数组还是链表,如果我们想要寻找一个特定的数值,时间复杂度都为O(n)。那有什么办法用最快的速度来找到一个特定的元素呢,今天我们就来学习工业界中常用的数据结构“哈希表”,在哈希表中,不管是寻找、删除、增加一个新元素,时间复杂度都
阅读全文
摘要:在这一章我们来了解两个很特殊的数据结构:堆栈 (Stack) 和队列 (Queue)。这两个数据结构类似垃圾桶和队伍,栈是先进后出型,队列是先进先出型。 堆栈(Stack) 概念 堆栈是一种常用的数据结构,这种数据结构的存储方式和垃圾桶一样,后面放进去的元素可以先取出来,而最早放入的元素会被压在最下
阅读全文
摘要:链表的概念 我们知道数组是很常用的数据储存方式,而链表就是继数组之后,第二种最通用的数据储存方式了。数组需要存放在连续的空间,计算机很容易实现。而链表的好处是不用确定空间长度,不够的时候,直接申请新的节点,帮助插入。所以链表可以更灵活地进行内存分配。 链表(linked list)是一种序列形的数据
阅读全文
摘要:排序算法 搜索是计算机中非常重要的步骤,但是从无序的数据中寻找特定的数字往往很难,我们之前提到的二分查找只能运用在排好序的数组中。所以排序算法是一个很重要的工作,如果我们能够将数值排好序,那么当我们寻找特定数值的时候,能省下不少功夫。 排序算法有很多,每种排序算法各有优缺点: 在这章节中,我们就来学
阅读全文
摘要:来源:https://turingplanet.org/2020/02/03/%e3%80%90%e6%95%b0%e6%8d%ae%e7%bb%93%e6%9e%84%e5%92%8c%e7%ae%97%e6%b3%953%e3%80%91/ 复杂度分析 算法本质上是一连串的计算步骤。对于同一个问
阅读全文
摘要:4 Alink如何读写文本数据【Alink使用技巧】 Alink文本读写组件使用起来非常简单,每个换行符对应一条数据,只需指定文件的路径即可。譬如,我们想看一下iris数据,但不想花时间详细定义其数据列名及类型,就可以将其每条数据简单地看作一行文本,使用TextSourceBatchOp,并设置文件
阅读全文
摘要:1 统计视频观看数 Top10 思路:使用 order by 按照 views 字段做一个全局排序即可,同时我们设置只显示前 10 条。 最终代码: SELECT videoId, views FROM gulivideo_orc ORDER BY views DESC LIMIT 10; 2 统计
阅读全文
摘要:1 需求描述 统计硅谷影音视频网站的常规指标,各种 TopN 指标: -- 统计视频观看数 Top10 -- 统计视频类别热度 Top10 -- 统计出视频观看数最高的 20 个视频的所属类别以及类别包含 Top20 视频的个数 -- 统计视频观看数 Top50 所关联视频的所属类别排序 -- 统计
阅读全文
摘要:一 数据类型 1 数值型 1、整型tinyint、smallint、mediumint、int/integer、bigint1 2 3 4 8 特点:①都可以设置无符号和有符号,默认有符号,通过unsigned设置无符号②如果超出了范围,会报out or range异常,插入临界值③长度可以不指定,
阅读全文
摘要:Aggregation Once the GroupBy object has been created, several methods are available to perform a computation on the grouped data. These operations are
阅读全文
摘要:https://www.pypandas.cn/docs/user_guide/timeseries.html https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries
阅读全文
摘要:Statistical functions #Percent change Series and DataFrame have a method pct_change() (opens new window)to compute the percent change over a given num
阅读全文
摘要:1 简介 Group by: split-apply-combine By “group by” we are referring to a process involving one or more of the following steps: Splitting the data into g
阅读全文
摘要:7 Joining key columns on an index join() takes an optional on argument which may be a column or multiple column names, which specifies that the passed
阅读全文
摘要:Database-style DataFrame or named Series joining/merging 1 summary pandas provides a single function, merge(), as the entry point for all standard dat
阅读全文
摘要:一 合并 1 Concatenating objects The concat() function (in the main pandas namespace) does all of the heavy lifting of performing concatenation operations
阅读全文
摘要:依赖管理 依赖文件 table_env.add_python_file(file_path) 依赖存档(打包)文件 table_env.add_python_archive("py_env.zip", "myenv") # the files contained in the archive fil
阅读全文
摘要:来源:https://developer.aliyun.com/article/769981 http://bubuko.com/infodetail-3554826.html 1 开发环境依赖 PyFlink作业的开发和运行需要依赖Python 3.5/3.6/3.7 版本和Java 8或者Jav
阅读全文
摘要:来源:https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/deployment/cli/#submitting-pyflink-jobs Currently, users are able to submit a
阅读全文
摘要:来源:https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/dev/python/table_api_tutorial/ 一 安装环境与安装 您需要一台具有以下功能的计算机: Java 8 or 11 Python
阅读全文
摘要:https://gitee.com/517424787/Alink/blob/master/docs/pyalink/pyalink-pyflink.md 与 PyFlink 一同使用 在最新的发布中,PyAlink 与 PyFlink 进行了一定的整合。 用户在新版本的 PyAlink 中能够使用
阅读全文
摘要:来源:https://www.yuque.com/pinshu/alink_guide/czg4cx 1 Alink Schema String简介【Alink使用技巧】 Alink在进行表数据读取和转换时,有时需要显示声明数据表的列名和列类型信息,即Schema信息。Schema String就是
阅读全文
摘要:来源:https://zhuanlan.zhihu.com/p/165050101 由于 Alink 可以通过 Java 和 Python 两种方式提交,建议在集群部署的时候将相关 Jar 包一起部署上去。Alink 虽然没有单独提供集群部署 Jar 包的下载,但是所需 Jar 包与 PyAlink
阅读全文
摘要:一 前言 目前不支持pyflink-shell.sh的任何模式。 只支持jupyter notebook以及python shell以及jar包提交的方式. 下面是来自官方钉钉群的回复: 二 jupyter notebook 下 1 本地模式 使用方法创建本地运行环境:useLocalEnv(par
阅读全文
摘要:来源:https://www.yuque.com/pinshu/alink_guide/mm66ev 第一步,创建项目 在InterlliJ IDEA中选择创建新项目,并选择Maven,如下图所示: 使用默认选项,不用勾选"Create from archetype",点击"Next"按钮,进入下图
阅读全文
摘要:一 安装最新版本PyAlink pip install -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple pyalink 报错的话,可能是网络问题。多试几次或者单独安装报错的包 二 验证示例(单机运行) 1
阅读全文
摘要:来源:https://blog.csdn.net/wei18791957243/article/details/109061869 1.什么是分治算法? 分治算法就是对一个问题采取各个击破的方法,将一个规模为N的问题分解为K个规模较小的子问题,这些子问题相互独立且与原问题性质相同。只要求出子问题的解
阅读全文
摘要:来源:https://zhuanlan.zhihu.com/p/72734354 分治法,字面意思是“分而治之”,就是把一个复杂的1问题分成两个或多个相同或相似的子问题,再把子问题分成更小的子问题直到最后子问题可以简单地直接求解,原问题的解即子问题的解的合并,这个思想是很多高效算法的基础,例如排序算
阅读全文
摘要:主要思想 分治算法的主要思想是将原问题递归地分成若干个子问题,直到子问题满足边界条件,停止递归。将子问题逐个击破(一般是同种方法),将已经解决的子问题合并,最后,算法会层层合并得到原问题的答案。 分治算法的步骤 分:递归地将问题分解为各个的子问题(性质相同的、相互独立的子问题); 治:将这些规模更小
阅读全文