01 2021 档案
摘要:Computing with scikit-learn https://scikit-learn.org/stable/computing.html 此章讲解使用sklearn涉及到的计算性能相关问题。 Strategies to scale computationally: bigger data
阅读全文
摘要:Model persistence https://scikit-learn.org/stable/modules/model_persistence.html 模型训练完毕后,如何保存起来,以便日后使用呢?这就是模型持久化。 After training a scikit-learn model,
阅读全文
摘要:Unsupervised dimensionality reduction https://scikit-learn.org/stable/modules/unsupervised_reduction.html 无监督学习领域的 维度约减 , 应对特征数目非常高的情况。 在监督学习步骤之前, 进行无
阅读全文
摘要:Preprocessing data https://scikit-learn.org/stable/modules/preprocessing.html 数据预处理提供工具函数和变换器类, 将转换特征向量成为更加适合下游模型的数据表示。 一般学习算法都会从数据标准化中受益。 如果异常值存在于数据中
阅读全文
摘要:Semi-supervised Classification on a Text Dataset https://scikit-learn.org/stable/auto_examples/semi_supervised/plot_semi_supervised_newsgroups.html#sp
阅读全文
摘要:Topic extraction with Non-negative Matrix Factorization and Latent Dirichlet Allocation https://scikit-learn.org/stable/auto_examples/applications/plo
阅读全文
摘要:Classification of text documents using sparse features https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.ht
阅读全文
摘要:Sample pipeline for text feature extraction and evaluation https://scikit-learn.org/stable/auto_examples/model_selection/grid_search_text_feature_extr
阅读全文
摘要:Clustering text documents using k-means https://scikit-learn.org/stable/auto_examples/text/plot_document_clustering.html#sphx-glr-auto-examples-text-p
阅读全文
摘要:Feature extraction https://scikit-learn.org/stable/modules/feature_extraction.html 从文本或图片的数据集中提取出机器学习支持的数据格式。 The sklearn.feature_extraction module ca
阅读全文
摘要:Column Transformer with Heterogeneous Data Sources https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer.html#sphx-glr-auto-ex
阅读全文
摘要:Column Transformer with Mixed Types https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer_mixed_types.html#sphx-glr-auto-examp
阅读全文
摘要:Pipelines and composite estimators https://scikit-learn.org/stable/modules/compose.html 转换器通常跟分类器、回归器、其它的估计器组合使用,构建一个组合的估计器。(可以理解为 组合模型) 这就叫流水线技术Pipel
阅读全文
摘要:Strategies to scale computationally: bigger data https://scikit-learn.org/stable/computing/scaling_strategies.html 针对海量样本 和 计算速度的要求, 对于传统的方法(数据加载内存 -
阅读全文
摘要:Working With Text Data https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#working-with-text-data 分析文本文档,关于20个不同主题。 包括
阅读全文
摘要:sphinx usages https://brendanhasz.github.io/2019/01/05/sphinx.html#file-hierarchy sphinx可以从python文档中自动提取docstring生成文档。 docstring包括函数和类的注释。 理解: sphinx在
阅读全文
摘要:Manifold learning https://scikit-learn.org/stable/modules/manifold.html#locally-linear-embedding 流形学习是一种非线性降维方法,算法是基于一种想法,很多数据集的高纬度是人为制造的高,并不是真的高。 PCA
阅读全文
摘要:Visualizing the stock market structure https://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html#stock-market 此例使用了集中非监督学习技术,
阅读全文
摘要:Covariance estimation https://scikit-learn.org/stable/modules/covariance.html# 协方差矩阵可以看成是 数据集分散布局的估计。 理解: 在矩阵中, 高相关系数越多, 则数据集分布越集中, 反之越分散。 例如各个特征之间 的相
阅读全文
摘要:Arithmetic Mean(算数均值) 均值关注整体的一个平均水平。 https://www.investopedia.com/terms/a/arithmeticmean.asp What Is the Arithmetic Mean? The arithmetic mean is the s
阅读全文
摘要:Pipelining https://scikit-learn.org/stable/tutorial/statistical_inference/putting_together.html#pipelining 有的模型用于转换数据, 有的模型用于预测数据。 可以将这两种模型组合起来, 这就是流水
阅读全文
摘要:Unsupervised learning https://scikit-learn.org/stable/tutorial/statistical_inference/unsupervised_learning.html 无监督学习的目的是, 寻找数据的表示。 探索数据的结构。 seeking r
阅读全文
摘要:Model selection https://scikit-learn.org/stable/tutorial/statistical_inference/model_selection.html#score-and-cross-validated-scores 模型选择,包括两个部分: (1)选
阅读全文