03 2023 档案
摘要:工业蒸汽量预测(最新版本下篇) 5.模型验证 5.1模型评估的概念与正则化 5.1.1 过拟合与欠拟合 ### 获取并绘制数据集 import numpy as np import matplotlib.pyplot as plt %matplotlib inline np.random.seed(
阅读全文
摘要:机器学习实战系列[一]:工业蒸汽量预测(最新版本上篇)含数据探索特征工程等
阅读全文
摘要:机器学习算法(九): 基于线性判别模型的LDA手写数字分类识别
阅读全文
摘要:BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)。在模拟过程中收集系统所产生的误差,通过误差反传,然后调整权值大小,通过该不断迭代更新,最后使得模型趋于整体最优化(这是一个循环,我们在训练神经网络的时候是要不断的去重复这个过程的)。
阅读全文
摘要:机器学习系列入门系列[七]:基于英雄联盟数据集的LightGBM的分类预测
阅读全文
摘要:器学习算法(六)基于天气数据集的XGBoost分类预测
阅读全文
摘要:决策树的主要优点:
1. 具有很好的解释性,模型可以生成可以理解的规则。
2. 可以发现特征的重要程度。
3. 模型的计算复杂度较低。
决策树的主要缺点:
1. 模型容易过拟合,需要采用减枝技术处理。
2. 不能很好利用连续型特征。
3. 预测能力有限,无法达到其他强监督模型效果。
4. 方差较高,数据分布的轻微改变很容易造成树结构完全不同。
阅读全文
摘要:机器学习算法(四): 基于支持向量机的分类预测 本项目链接:https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc 1.相关流程 支持向量机(Support Vector Machine,SVM)是一个非常优雅的算法,具有非常完善的
阅读全文
摘要:机器学习算法(三):基于horse-colic数据的KNN近邻(k-nearest neighbors)预测分类
阅读全文
摘要:优点:
朴素贝叶斯算法主要基于经典的贝叶斯公式进行推倒,具有很好的数学原理。而且在数据量很小的时候表现良好,数据量很大的时候也可以进行增量计算。由于朴素贝叶斯使用先验概率估计后验概率具有很好的模型的可解释性。
缺点:
朴素贝叶斯模型与其他分类方法相比具有最小的理论误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进,例如为了计算量不至于太大,我们假定每个属性只依赖另外的一个。解决特征之间的相关性,我们还可以使用数据降维(PCA)的方法,去除特征相关性,再进行朴素贝叶斯计算。
阅读全文
摘要:逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。
阅读全文
摘要:本项目做了基于PaddleOCR的多视角集装箱箱号检测识别,使用少量数据分别训练检测、识别模型,最后将他们串联在一起实现集装箱箱号检测识别的任务。其中集装箱号是指装运出口货物集装箱的箱号,填写托运单时必填此项。标准箱号构成基本概念:采用ISO6346(1995)标准。
阅读全文
摘要:4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取
阅读全文
摘要:2.基于Label studio的训练数据标注指南:(智能文档)文档抽取任务、PDF、表格、图片抽取标注等
阅读全文
摘要:1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
阅读全文
摘要:3.基于Label studio的训练数据标注指南:文本分类任务
阅读全文
摘要:推荐可分为以下四个流程,分别是召回、粗排、精排以及重排:
1. 召回是源头,在某种意义上决定着整个推荐的天花板;
2. 粗排是初筛,一般不会上复杂模型;
3. 精排是整个推荐环节的重中之重,在特征和模型上都会做的比较复杂;
4. 重排,一般是做打散或满足业务运营的特定强插需求,同样不会使用复杂模型;
阅读全文