05 2022 档案
摘要:原文链接:http://tecdat.cn/?p=26672 原文出处:拓端数据部落公众号 在这个项目中,我讨论了如何使用主成分分析 (PCA) 进行简单的预测。 出于说明目的,我们将对一个数据集进行分析,该数据集包含有关在 3 个不同价格组内进行的汽车购买信息以及影响其购买决定的一组特征。 首先,
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26632 原文出处:拓端数据部落公众号 理解世界,我们可以从相关性的角度去描述,统计,机器学习,很多问题都是从相关的角度去描述的。我们去构建一个模型,不管是统计机器学习模型,还是深度学习模型,本质上是构建一个复杂映射。从特征到标签的一个映射,这个映
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26624 原文出处:拓端数据部落公众号 matlab软件在拟合数据时使用最小二乘法。拟合需要一个参数模型,该模型将因变量数据与具有一个或多个系数的预测数据相关联。拟合过程的结果是模型系数的估计。 为了获得系数估计,最小二乘法最小化残差的平方和。第i
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26578 原文出处:拓端数据部落公众号 指数分布是泊松过程中事件之间时间的概率分布,因此它用于预测到下一个事件的等待时间,例如,您需要在公共汽车站等待的时间,直到下一班车到了。 在本文中,我们将使用指数分布,假设它的参数 λ ,即事件之间的平均时间
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26562 原文出处:拓端数据部落公众号 该项目包括: 自 2000 年 1 月以来的股票价格数据。我们使用的是 Microsoft 股票。 将时间序列数据转换为分类问题。 使用 TensorFlow 的 LSTM 模型 由 MSE 衡量的预测准确性
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26341 原文出处:拓端数据部落公众号 豆瓣读书是豆瓣网的一个子版块。 本文数据来源于豆瓣读书网站,分析内容将基于豆瓣读书的图书评分和评论信息。 主题将紧紧围绕以下几点:有哪些书籍值得推荐?一般书籍的价格是多少?一本书的评分和评论数量之间是否存在某
阅读全文
摘要:原文链接:http://tecdat.cn?p=26519 原文出处:拓端数据部落公众号 一个简单的编码器-解码器LSTM神经网络应用于时间序列预测问题:预测天然气价格,预测范围为 10 天。“进入”时间步长也设置为 10 天。) 只需要 10 天来推断接下来的 10 天。可以使用 10 天的历史数
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26336 原文出处:拓端数据部落公众号 近似贝叶斯计算和近似技术基于随机模拟模型中的样本计算近似似然值,在过去几年中引起了很多关注,因为它们有望为任何随机过程提供通用统计技术。 一位同事向我询问我们在我们的文章中讨论过的近似贝叶斯计算 MCMC
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26324 原文出处:拓端数据部落公众号 介绍 Metropolis Hastings 算法是一种非常简单的算法,用于从难以采样的分布中生成样本。 假设我们要从分布 π 中进行采样,我们将其称为“目标”分布。为简单起见,我们假设 π是实线上的一维分布
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26318 原文出处:拓端数据部落公众号 此示例说明如何使用长短期记忆 (LSTM) 网络对序列数据的每个时间步长进行分类。 要训练深度神经网络对序列数据的每个时间步进行分类,可以使用 序列对序列 LSTM 网络。序列对序列 LSTM 网络使您能
阅读全文
摘要:原文链接:http://tecdat.cn/?p=24141 原文出处:拓端数据部落公众号 在这个视频中,我们转向简单线性回归中的贝叶斯推断。 我们将使用一个参照先验分布,它提供了频率主义解决方案和贝叶斯答案之间的联系。 然后在R语言中用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资数据
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26301 原文出处:拓端数据部落公众号 线性模型是统计学的基础,但它的意义远不止用尺子在几个点上画一条线。 我认为以分布为中心的观点使 generalised linear models (GLM) 也更容易理解。这就是这篇文章的目的。 我将使用冰
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26277 原文出处:拓端数据部落公众号 极值理论对样本尾部分布的极值指数的估计方法主要有两类:半参数方法和全 参数方法,前者主要是基于分布尾部的 Hill 估计量,后者则主要基于广义帕累托分布。 尾部指数的希尔HILL统计量估计。更具体地说,我们看
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26271 原文出处:拓端数据部落公众号 介绍 Box 等人的开创性工作(1994) 在自回归移动平均模型领域的相关工作为波动率建模领域的相关工作铺平了道路,分别由 Engle (1982) 和 Bollerslev (1986) 引入了 ARCH
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26230 原文出处:拓端数据部落公众号 什么是CNN 本文演示了如何训练一个简单的卷积神经网络 (CNN) 来对 图像进行分类。 Convolutional Neural Networks (ConvNets 或 CNNs)是一类神经网络,已被证明
阅读全文
摘要:原文链接:http://tecdat.cn/?p=22482 原文出处:拓端数据部落公众号 为什么要使用Boosting? 单一模型的预测往往会有缺陷,为了解决复杂的问题,我们需要集成学习通过组合多个模型来提高机器学习的预测性能。 视频:Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26219 原文出处:拓端数据部落公众号 银行数据集 我们的数据集描述 该数据与银行机构的直接营销活动相关,营销活动基于电话。通常,需要与同一客户的多个联系人联系,以便访问产品(银行定期存款)是否会(“是”)或不会(“否”)订阅。y - 客户是否订阅
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26206 原文出处:拓端数据部落公众号 结构方程建模 (SEM) 是一种全面而灵活的方法,包括在假设模型中研究变量之间的关系,无论它们是测量的还是潜在的,这意味着不可直接观察到,就像任何心理构造(例如,智力、满意度,希望,信任)。因为它是一种多元分
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26184 原文出处:拓端数据部落公众号 在此数据集中,我们必须预测信贷的违约支付,并找出哪些变量是违约支付的最强预测因子?以及不同人口统计学变量的类别,拖欠还款的概率如何变化? 有25个变量: 1. ID: 每个客户的ID2. LIMIT_BAL:
阅读全文
摘要:原文链接:http://tecdat.cn/?p=26177 原文出处:拓端数据部落公众号 GBDT梯度提升模型由多个决策树组成。预测模型的目的是根据输入预测目标值。GBDT使用 已知目标值的训练数据来创建模型 ,然后可以将该模型应用于目标未知的观测。如果预测很好地拟合了新数据,则该模型可以 很好地
阅读全文