05 2021 档案

摘要:原文 | http://tecdat.cn/?p=22319 来源 | 拓端数据部落公众号 本文建立偏最小二乘法(PLS)回归(PLSR)模型,以及预测性能评估。为了建立一个可靠的模型,我们还实现了一些常用的离群点检测和变量选择方法,可以去除潜在的离群点和只使用所选变量的子集来 "清洗 "你的数据。 阅读全文
posted @ 2021-05-27 21:03 拓端tecdat 阅读(712) 评论(0) 推荐(0) 编辑
摘要:原文链接: http://tecdat.cn/?p=22181 原文出处:拓端数据部落公众号 本文考虑一下基于核方法进行分类预测。注意,在这里,我们不使用标准逻辑回归,它是参数模型。 非参数方法 用于函数估计的非参数方法大致上有三种:核方法、局部多项式方法、样条方法。非参的函数估计的优点在于稳健,对 阅读全文
posted @ 2021-05-27 20:52 拓端tecdat 阅读(226) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=22302 原文出处:拓端数据部落公众号 混合效应逻辑回归用于建立二元结果变量的模型,其中,当数据被分组或同时存在固定和随机效应时,结果的对数几率被建模为预测变量的线性组合。 混合效应逻辑回归的例子 例1:一个研究人员对40所不同大学的申请进行抽样调 阅读全文
posted @ 2021-05-27 20:51 拓端tecdat 阅读(411) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=22273 动机 如果你了解数据科学领域,你可能听说过LASSO。LASSO是一个对目标函数中的参数大小进行惩罚的模型,试图将不相关的变量从模型中排除。它有两个非常自然的用途,第一个是变量选择,第二个是预测。因为通常情况下,LASSO选择的变量会比普 阅读全文
posted @ 2021-05-27 20:40 拓端tecdat 阅读(204) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=22226 原文出处:拓端数据部落公众号 两个随机变量之间的相依性问题备受关注,相依性(dependence)是反映两个随机变量之间关联程度的一个概念。它与相关性(correlation)有区别,常用的相关性度量是Pearson相关系数,它只度量了两 阅读全文
posted @ 2021-05-27 20:36 拓端tecdat 阅读(195) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=22215 原文出处:拓端数据部落 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的。但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以使这些变量差分而平稳。这就是所谓的协整关系。由于知道这种关系可以改善分析的结果,所以希望有一个 阅读全文
posted @ 2021-05-27 20:32 拓端tecdat 阅读(393) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=22206 模型背景 每一个动态现象都可以用一个潜过程(Λ(t)来描述,这个潜过程在连续的时间t内演化。当对重复测量的标志变量进行建模时,我们通常不会把它看成是一个有误差测量的潜过程。然而,这正是混合模型理论所做的基本假设。潜过程混合模型利用这个框架 阅读全文
posted @ 2021-05-27 20:30 拓端tecdat 阅读(493) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=22160 这个例子展示了如何使用分位数随机林来检测异常值。分位数随机林可以检测到与给定X的Y的条件分布有关的异常值。 离群值是一些观测值,它的位置离数据集中的大多数其他观测值足够远,可以认为是异常的。离群观测的原因包括固有的变异性或测量误差。异常值 阅读全文
posted @ 2021-05-27 20:25 拓端tecdat 阅读(563) 评论(0) 推荐(0) 编辑
摘要:原文链接: http://tecdat.cn/?p=22071 至少有两种非平稳时间序列:具有趋势的时间序列和具有单位根的时间序列(称为单整时间序列)。单位根检验不能用来评估时间序列是否平稳。它们只能检测单整时间序列。季节性单位根也是如此。 这里考虑月平均温度数据。 > mon=read.table 阅读全文
posted @ 2021-05-27 20:21 拓端tecdat 阅读(342) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=22034 相信大家都听说过股票和债券的多元化投资组合。改进的股票配对交易策略基本上使用了一种前进的方法(参考文章中的概念),即最大化夏普比率,偏向于波动率而不是收益率。也就是说,它使用72天的移动窗口来最大化投资组合的不同权重配置之间的总收益,标准 阅读全文
posted @ 2021-05-27 20:20 拓端tecdat 阅读(228) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21978 本文将介绍如何在R中用rstan和rjags做贝叶斯回归分析,R中有不少包可以用来做贝叶斯回归分析,比如最早的(同时也是参考文献和例子最多的)R2WinBUGS包。这个包会调用WinBUGS软件来拟合模型,后来的JAGS软件也使用与之类似 阅读全文
posted @ 2021-05-27 20:19 拓端tecdat 阅读(216) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=22262 在讨论分类时,我们经常分析二维数据(一个自变量,一个因变量)。但在实际生活中,有更多的观察值,更多的解释变量。随着两个以上的解释变量,它开始变得更加复杂的可视化。 数据 我们使用心脏病数据,预测急诊病人的心肌梗死,包含变量: 心脏指数 心 阅读全文
posted @ 2021-05-27 20:18 拓端tecdat 阅读(195) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=22251 线性回归时若数据不服从正态分布,会给线性回归的最小二乘估计系数的结果带来误差,所以需要对数据进行结构化转换。 在讨论回归模型中的变换时,我们通常会简单地使用Box-Cox变换,或局部回归和非参数估计。 这里的要点是,在标准线性回归模型中, 阅读全文
posted @ 2021-05-27 20:16 拓端tecdat 阅读(346) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21892 引言 多元统计分析 中,交互作用是指某因素作用随其他因素水平的不同而不同,两因素同时存在是的作用不等于两因素单独作用之和(相加交互作用)或之积(相乘交互作用)。通俗来讲就是,当两个或多个因素同时作用于一个结局时,就可能产生交互作用,又称为 阅读全文
posted @ 2021-05-27 20:14 拓端tecdat 阅读(427) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21825 原文出处:拓端数据部落公众号 假设检验的基本原理是小概率原理,即我们认为小概率事件在一次试验中实际上不可能发生。 多重比较的问题 当同一研究问题下进行多次假设检验时,不再符合小概率原理所说的“一次试验”。如果在该研究问题下只要有检验是阳性 阅读全文
posted @ 2021-05-27 20:12 拓端tecdat 阅读(808) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21809 如果能重来,你是否还愿意做一名护士? 要点提示 这是我们最近的一项护士职业满意度线上调查中关注的一个问题。遗憾的是,对护士工作满意的只有约27%。为何这么多人不愿意再次选择做护士?本文为探讨护士工作满意度的结构,拟对护士工作满意度的结构进 阅读全文
posted @ 2021-05-27 20:11 拓端tecdat 阅读(133) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21773 视频 在Python和R语言中建立EWMA,ARIMA模型预测时间序列 概述 学习创建时间序列预测的步骤 关注Dickey-Fuller检验和ARIMA(自回归移动平均)模型 从理论上学习这些概念以及它们在python中的实现 介绍 时间 阅读全文
posted @ 2021-05-27 20:10 拓端tecdat 阅读(425) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21625 我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Boots 阅读全文
posted @ 2021-05-12 00:39 拓端tecdat 阅读(975) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21641 工资模型 在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解。在本文中,我们将分析横断面工资数据,以期在实践中使用贝叶斯方法,如BIC和贝叶斯模型来构建工资的预测模型。 加载包 在本实验中,我们将使用dplyr包探索 阅读全文
posted @ 2021-05-12 00:22 拓端tecdat 阅读(575) 评论(0) 推荐(0) 编辑
摘要:原文链接: http://tecdat.cn/?p=21557 分段回归( piecewise regression ),顾名思义,回归式是“分段”拟合的。其灵活用于响应变量随自变量值的改变而存在多种响应状态的情况,二者间难以通过一种回归模型预测或解释时,不妨根据响应状态找到合适的断点位置,然后将自 阅读全文
posted @ 2021-05-12 00:09 拓端tecdat 阅读(345) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21757 时间序列模型根据研究对象是否随机分为确定性模型和随机性模型两大类。 随机时间序列模型即是指仅用它的过去值及随机扰动项所建立起来的模型,建立具体的模型,需解决如下三个问题模型的具体形式、时序变量的滞后期以及随机扰动项的结构。 μ是yt的均值 阅读全文
posted @ 2021-05-11 23:40 拓端tecdat 阅读(952) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21602 正则化(regularization) 正则化路径是在正则化参数lambda的值网格上计算套索LASSO或弹性网路惩罚的正则化路径。该算法速度快,可以利用输入矩阵x中的稀疏性,拟合线性、logistic和多项式、poisson和Cox回归 阅读全文
posted @ 2021-05-11 23:06 拓端tecdat 阅读(873) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21573 介绍 ARIMA模型是时间序列预测中一种常用的统计方法。指数平滑和ARIMA模型是时间序列预测中应用最为广泛的两种方法,它们是解决这一问题的补充方法。指数平滑模型是基于对数据趋势和季节性的描述,而ARIMA模型则是为了描述数据的自相关性。 阅读全文
posted @ 2021-05-11 23:04 拓端tecdat 阅读(496) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21545 示例1:使用MCMC的指数分布采样 任何MCMC方案的目标都是从“目标”分布产生样本。在这种情况下,我们将使用平均值为1的指数分布作为我们的目标分布。所以我们从定义目标密度开始: target = function(x){ if(x<0) 阅读全文
posted @ 2021-05-11 23:02 拓端tecdat 阅读(196) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://tecdat.cn/?p=21506 当采用两种状态时,单转换函数PSTR模型具有两个变量: 我们的经验方法的基础包括评估N个国家的资本流动性。相应的模型定义如下: 其中,Iit是第i个国家在时间t时观察到的国内投资与GDP的比率,Sit是国内储蓄与GDP的比率,αi表示单个 阅读全文
posted @ 2021-05-11 22:56 拓端tecdat 阅读(217) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示