06 2019 档案
摘要:人们对于电力的需求与依赖随着生活水平的提高而不断加深,用电负荷预测工作开始变得越来越重要,如果可以发现用电负荷的规律性,我们就可以合理安排用电负荷。我们使用某商业物业两个星期的电耗数据进行分析。 GAM模型 当因变量和自变量不呈线性关系时,可用广义相加模型(GAM)。GAM模型的优点,在于其解决响应
阅读全文
摘要:逻辑回归对用户收入进行预测 对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,从而针对性的进行营销,提高运营人员的办事效率。 对于付费用户预测,主要是思考收入由哪些因素推动,再对每个因素做预测,最后得出付费预测。这其实不是一个财务问题,是一个业务问题。 流失预
阅读全文
摘要:原文链接:http://tecdat.cn/?p=3986 马云说:“员工离职的原因总是只有两个:钱,没有到位;心委屈了。” 现在很多老板都抱怨说,年轻人的流动率太高了,员工觉得老板的钱太少了,最后还是多指责。 为什么我们最好和最有经验的员工过早离职? 到底如何解决这个困境? 拓端数据tecdat使
阅读全文
摘要:完整原文链接 概要 方剂药效与剂量的关系中药不传之秘在于剂量中药配伍规律。拓端数据使用数据挖掘技术对海量的在线医院药物复方历史数据进行智能分析,并从中找出药物配伍的规律。 业务挑战 中医传承过程中,关于生理、病因病机以及疾病的表现和发展规律,都容易记载在书上,也容易理解和传承。然而随着医药科技的不断
阅读全文
摘要:由于电商网站的数据的实时性要求,数据分析时一般直接从网页爬取。因此使用爬虫的方法显得十分重要。R作为数据分析的软件,可以直接对爬取的数据进行后续处理,加上上手快的特点,是电商网站数据爬取和分析的好工具。 下面以?http://cn.shopbop.com/为例 简单分享下使用Rcurl对网站进行数据
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5673 数据集 约瑟夫海勒捕捉22是我最喜欢的小说。我最近读完了 ,并喜欢整本书中语言的创造性使用和荒谬人物的互动。对于我的可视化类,选择文本作为我的最终项目“数据集”是一个简单的选择。该文有大约175,000个单词,分为42章。我在网上找到了
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5147 介绍 深度学习是机器学习最近的一个趋势,模拟高度非线性的数据表示。在过去的几年中,深度学习在各种应用中获得了巨大的发展势头(Wikipedia 2016a)。其中包括图像和语音识别,无人驾驶汽车,自然语言处理等等。 今天,深度学习对于几乎所
阅读全文
摘要:原文链接:http://tecdat.cn/?p=6608 介绍 大多数时候,我能够破解特征工程部分,但可能没有使用多个模型的集合。 在本文中,我将向您介绍集成建模的基础知识。 另外,为了向您提供有关集合建模的实践经验,我们将使用R对hackathon问题进行集成。 1.什么是集成? 通常,集成是一
阅读全文
摘要:目标 本文的目的是对如何在R中进行生存分析进行简短而全面的评估。关于该主题的文献很广泛,仅涉及有限数量的(常见)问题/特征。可用的R包数量反映了对该主题的研究范围。 R包 可以使用各种R包来解决特定问题,并且还有替代功能来解决常见问题。以下是本次审查中用于读取,管理,分析和显示数据的软件包。运行以下
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5299 首先,自从雅虎的雅虎决定关闭他们的免费数据以来,免费的日常数据世界已经处于一个黑暗的时代。 Quantom的最新版本(可以从CRAN安装)现在包含了从2000年以来从AlphaVantage获得免费财务数据的一种方法,通常对于大多数后测来说
阅读全文
摘要:原文链接:http://tecdat.cn/?p=4612 贝叶斯分析的许多介绍都使用了相对简单的教学实例(例如,根据伯努利数据给出成功概率的推理)。虽然这很好地介绍了贝叶斯原理,但是这些原则的扩展并不是直截了当的。 这篇文章将概述这些原理如何扩展到简单的线性回归。一路上,我将导出感兴趣参数的后验条
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5136 library(hrbrthemes) 关于数据的一个技巧; 原始数据只有选定代表的分数(自然)。这意味着,在任何一年中,都会有几个州(每个党约8-10人)没有民主党或共和党代表。因为这些是行缺失而不是NA,如果你按原样绘制它们,那些状态将
阅读全文
摘要:原文:http://tecdat.cn/?p=387 Twitter是一个流行的社交网络,这里有大量的数据等着我们分析。Twitter R包是对twitter数据进行文本挖掘的好工具。本文是关于如何使用Twitter R包获取twitter数据并将其导入R,然后对它进行一些有趣的数据分析。 第一步是
阅读全文
摘要:看看就业市场中深度学习/人工智能趋势如何广泛流行。 我从网站上挖掘了可用的职位空缺数量:Monster,Stepstone和Indeed正在搜索术语“数据科学家”。 为了把这些数字看得很清楚,在2015年12月,我在Indeed上找到65个工作,在Monster找到36个,在Stepstone找到3
阅读全文
摘要:原文链接 http://tecdat.cn/?p=1951 随着智能手机的普及和手机用户的激增,共享单车作为城市交通系统的一个重要组成部分,以绿色环保、便捷高效、经济环保为特征蓬勃发展。 作为城市共享交通系统的一个重要组成部分,以绿色环保、便捷高效、经济环保为特征的自行车共享行业在2016年用户总数
阅读全文
摘要:原文链接: http://tecdat.cn/?p=3784 了解不同的市场状况如何影响您的策略表现可能会对您的回报产生巨大的影响。 某些策略在波动剧烈的市场中表现良好,而其他策略则需要强劲而平稳的趋势,否则将面临长时间的下跌风险。搞清楚什么时候开始或停止交易策略,调整风险和资金管理技巧,甚至设置进
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5354 维度的诅咒是一种现象,即数据集维度的增加导致产生该数据集的代表性样本所需的指数级更多的数据。 为了对抗维度的诅咒,已经开发了许多线性和非线性降维技术。这些技术旨在通过特征选择或特征提取来减少数据集中维度(变量)的数量, 而不会显着丢失信息。
阅读全文
摘要:以下是摘自虎扑的官方介绍: 虎扑是为年轻男性服务的专业网站,涵盖篮球、足球、F1、NFL等赛事的原创新闻专栏视频报道,拥有大型的生活/影视/电竞/汽车/数码网上交流社区,聊体育谈兴趣尽在虎扑。 二、数据说明 使用的数据来源: 2018/1/1~1/19 两周半内虎扑论坛步行街各子版块的所有帖子,去除
阅读全文
摘要:R语言代写岭回归ridge regression分析租房价格报告
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5202 与大多数高级分析解决方案不同,时间序列建模是一种低成本解决方案,可提供强大的洞察力。 本文将介绍构建质量时间序列模型的三个基本步骤:使数据静止不动,选择正确的模型并评估模型的准确性。这篇文章中的例子使用了一家主要汽车营销公司的历史页面浏览数
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5259 Tableau是当今数据科学和商业智能专业人员使用的最流行的数据可视化工具之一。它使您能够以交互式和多彩的方式创建具有洞察力和影响力的可视化效果。 在本文中,我们将看到一些超越拖放功能的高级图表。我们将创建计算以深入研究数据以提取洞察力。我
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5305 大家好!在这篇文章中,我将向你展示如何在R中进行层次聚类。 什么是分层聚类? 分层聚类是一种可供选择的方法,它可以自下而上地构建层次结构,并且不需要我们事先指定聚类的数量。 该算法的工作原理如下: 将每个数据点放入其自己的群集中。 确定最近
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5246 数据科学和机器学习之间区别的定义:数据科学专注于提取洞察力,而机器学习对预测有兴趣。我还注意到这两个领域大相径庭: 我在我的工作中同时使用了机器学习和数据科学:我可能会使用堆栈溢出流量数据的模型来确定哪些用户可能正在寻找工作(机器学习),但
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5383 介绍 在一个典型的“从思考到购买”的顾客旅程中,顾客在购买最终产品之前要经过多个接触点。这在电子商务销售方面更为突出。跟踪哪些是客户在最终购买之前遇到的不同接触点相对更容易。 随着市场营销越来越多地朝着消费者驱动的方向发展,确定正确的渠道来
阅读全文
摘要:数据中的异常值可能会使预测失真并影响准确性,尤其是在回归模型中,如果您没有正确检测并处理它们,那么它们会影响精度 为什么异常值检测很重要? 在真实观察中处理或改变异常值/极端值不是标准操作程序。但是,了解它们对预测模型的影响至关重要。留待调查人员判断是否需要治疗异常值以及如何去做。 那么,为什么识别
阅读全文
摘要:原文链接 http://tecdat.cn/?p=2657 本文展示了如何基于基础ARMA-GARCH过程(当然这也涉及广义上的QRM)来拟合和预测风险价值(Value-at-Risk,VaR)。 library(qrmtools)# for qq_plot() library(rugarch) 模
阅读全文
摘要:原文链接:http://tecdat.cn/?p=4146 通过对用电负荷的消费者进行聚类,我们可以提取典型的负荷曲线,提高后续用电量预测的准确性,检测异常或监控整个智能电网(Laurinec等人(2016),Laurinec和Lucká( 2016))。第一个用例通过K-medoids聚类方法提取
阅读全文
摘要:原文链接:http://tecdat.cn/?p=4248 动机 航空业的庞大规模让人有理由关心它:它不仅直接影响数百万人(传单,飞行员,工程师等),而且数百万人因间接影响其经济实力而间接影响数百万人。 尽管北美航空业强劲,但为了保持持续增长以及作为跨地区行业领导者的持续地位,必须时刻保持警惕,以跟
阅读全文
摘要:为了方便起见,这些模型通常简称为TAR模型。这些模型捕捉线性时间序列模型无法捕获的行为,如极限循环,幅度相关频率和跳跃现象。 数据示例 TAR模型通过抑制噪声项和截距并将阈值设置为0来获得: 模型估计 一种方法和这里讨论的方法是条件最小二乘(CLS)方法。 情况1.如果r和d都是已知的。 在这种情况
阅读全文
摘要:原文链接:http://tecdat.cn/?p=4276 阈值模型用于几个不同的统计领域,而不仅仅是时间序列。总体思路是,当一个变量的值超过一定的阈值时,一个进程可能会有不同的表现。也就是说,当值大于阈值时,可能会应用不同的模型,而不是在阈值以下。 例如,在药物毒理学应用中,可能低于阈值量的所有剂
阅读全文
摘要:原文链接:http://tecdat.cn/?p=6864 我们将 对1993年发送到20个Usenet公告板的20,000条消息进行分析。此数据集中的Usenet公告板包括新闻组用于政治,宗教,汽车,体育和密码学等主题。 预处理 我们首先阅读20news-bydate文件夹中的所有消息,这些消息组
阅读全文
摘要:R语言代写文本挖掘NASA数据网络分析,tf-idf和主题建模
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5124 包含术语“生物信息学”的推文示例 第1步: 加载所需的软件包 # load packages library(twitteR) library(igraph) library(stringr) 第2步: 收集关于“生物信息学”的推文 # t
阅读全文
摘要:主题建模 在文本挖掘中,我们经常收集一些文档集合,例如博客文章或新闻文章,我们希望将其分成自然组,以便我们可以分别理解它们。主题建模是对这些文档进行无监督分类的一种方法,类似于对数字数据进行聚类,即使我们不确定要查找什么,也可以找到自然的项目组。 潜在狄利克雷分配(LDA)是拟合主题模型特别流行的方
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5263 在本文中,我们将在贝叶斯框架中引入回归建模,并使用PyMC3 MCMC库进行推理。 我们将首先回顾经典或频率论者的多重线性回归方法。然后我们将讨论贝叶斯如何考虑线性回归。 用PyMC3进行贝叶斯线性回归 在本节中,我们将对统计实例进行一种历
阅读全文
摘要:原文链接:电商行业智能推荐引擎的探索 电商行业智能推荐引擎的探索 机器学习助力母婴电商 概要 拓端帮助国内母婴电商公司创建智能推荐引擎,由此打造精准、高效的购物体验,探索如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的解决方案。 业务挑战 随着电商网站用户数量和商品数量的增
阅读全文
摘要:原文链接:http://tecdat.cn/?p=4241 系统切换模型,尤其是马尔可夫切换(MS)模型,被认为是捕获时间序列非线性的有前景的方法。将MS模型的元素与完全自回归移动平均 - 广义自回归条件异方差(ARMA - GARCH)模型相结合,给参数估计器的计算带来了严重的困难。 我们制定了完
阅读全文
摘要:原文链接:http://tecdat.cn/?p=5277 本文分析了大型S&P500指数和SPY ETF,VIX指数和VXX ETN的波动率的可预测性和可交易性。尽管已有大量关于预测高频波动的文献,但大多数仅根据统计误差评估预测。实际上,这种分析只是对已经制定的预测的实际经济意义的一个小的指示。因
阅读全文
摘要:贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。 例如:P(A|B)是在B发生的情况下A发生的可能性。 使用情况:贝叶斯定理用于投资决策分析是在已知相关项目B的资料,而缺乏论证项目A的直接资料时,通过对B项目的有关状态及发生概率分析推导A项目的状态及发生概率。等相关情况下使用。 贝
阅读全文
摘要:电子表格不是数据库。但是,我们中的许多人使用电子表格就好像它们是数据库一样,然后当电子表格布局不支持数据库样式严格的可预测行,列和变量类型时,我们就会挣扎 - 这是分析和报告所需的基本元素。如果您使用SAS从Microsoft Excel读取数据,当您需要的数据不是从单元格A1开始时,您可以做什么?
阅读全文
摘要:建模过程包括三个阶段:规范,估计和评估。该软件包提供的工具可帮助用户进行模型规范测试,进行PSTR模型评估以及进行模型评估。 在程序包中实现了集群依赖性和异方差性一致性测试。 还实现了wild bootstrap和cluster wild bootstrap测试。 并行计算(作为选项)在某些函数中实
阅读全文
摘要:什么是MCMC,什么时候使用它? MCMC只是一个从分布抽样的算法。 这只是众多算法之一。这个术语代表“马尔可夫链蒙特卡洛”,因为它是一种使用“马尔可夫链”(我们将在后面讨论)的“蒙特卡罗”(即随机)方法。MCMC只是蒙特卡洛方法的一种,尽管可以将许多其他常用方法看作是MCMC的简单特例。 正如上面
阅读全文
摘要:全球化时代快速增长的经济体之一是埃塞俄比亚经济。在低收入国家中,它已成为在国内生产总值(GDP)中实现两位数增长率的少数几个国家之一。然而,关于两位数的增长率存在很多争论,特别是在最近的全球经济衰退期间。因此,埃塞俄比亚的GDP与回归量(时间)之间的关系是否存在结构性变化,这成为一个实证研究的问题。
阅读全文
摘要:开启弹幕已经成为很多年轻人看剧时的一种习惯。最近大热的几部电视剧,弹幕也十分精彩有趣,甚至出现“弹幕比剧好看”的现象。 ▼ 弹幕的出现消解了观影的孤独感,增加了互动性。可以说,弹幕是对视频作品的二次创作,有趣的弹幕甚至能让一部无聊的视频重焕生机。另一方面,视频创作者也能够从弹幕上看到观众对自己所创作
阅读全文