随笔分类 - BI那点儿事
BI那点儿事—数据的艺术
摘要:摘要:文章介绍了集成学习的概念和它的发展,它有RF和GBDT两大杀器,它有嫁接法、集成半监督学习的最新进展能够提升学习效果,文章还着重分析了集成学习成功的关键。 编者按:目前机器学习领域诞生的多种算法并不见得都有很好的实战效果。本文作者认为,集成学习是一种立竿见影、从不过时的方法,堪称机器学习兵器谱
阅读全文
摘要:例如,“三国人物是否智力越高,政治就越高”,或是“是否武力越高,统率也越高;准备数据分析环境:SELECT *FROM FactSanguo11WHERE 姓名 IN ( N'荀彧', N'荀攸', N'贾诩', N'程昱', N'郭嘉' )曹魏五谋臣,指荀彧、荀攸、贾诩、程昱、郭嘉五人...
阅读全文
摘要:Microsoft神经网络是迄今为止最强大、最复杂的算法。要想知道它有多复杂,请看SQL Server联机丛书对该算法的说明:“这个算法通过建立多层感知神经元网络,建立分类和回归挖掘模型。与Microsoft决策树算法类似,在给定了可预测属性的每个状态时, Microsoft神经网络算法计算输入属性...
阅读全文
摘要:数据分析基础概念:标准计分: 1、无论作为变量的满分为几分,其标准计分的平均数势必为0,而其标准差势必为1。2、无论作为变量的单位是什么,其标准计分的平均数势必为0,而其标准差势必为1。公式为:离差:离差就是应用标准计分所得的数值。1、无论作为变量的满分为几分,其离差的平均数势必为50,而其标准差势...
阅读全文
摘要:献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解数据分析基础概念:数据分为“不可测量”的数据和“可测量”的数据。不可测量的数据称为“分类数据”(Category Data或Categorical Data。),而可测量的数据称为“数值数据”(Numerical Data)...
阅读全文
摘要:ETL(Extract/Transformation/Load)是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能,各个ETL工具一般会...
阅读全文
摘要:事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似。SateProductMouthUnitsDollarsWAMountain-100January37.95WACable LockJanuar...
阅读全文
摘要:准确性验证示例1:——基于三国志11数据库数据准备:挖掘模型:依次为:Naive Bayes 算法、聚类分析算法、决策树算法、神经网络算法、逻辑回归算法、关联算法提升图:依次排名为: 1. 神经网络算法(92.69% 0.99)2. 逻辑回归算法(92.39% 0.99)3. 决策树算法(91.19...
阅读全文
摘要:Microsoft朴素贝叶斯是SSAS中最简单的算法,通常用作理解数据基本分组的起点。这类处理的一般特征就是分类。这个算法之所以称为“朴素”,是因为所有属性的重要性是一样的,没有谁比谁更高。贝叶斯之名则源于Thomas Bayes,他想出了一种运用算术(可能性)原则来理解数据的方法。对此算法的另...
阅读全文
摘要:什么是聚类分析?聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在三国数据分析中,很多问题可以借助聚类分析来解决,比如三国人物身份划分。聚类分析的基本过程是怎样的?选择聚类变量...
阅读全文
摘要:献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解数据分析基础概念:集中趋势分析是指在大量测评数据分布中,测评数据向某点集中的情况。总体(population)是指客观存在的,并在同一性质的基础上结合起来的许多个别单位的整体,即具有某一特性的一类事物的全体,又叫母体或全域。...
阅读全文
摘要:雷达图分析三国超一流谋士、统帅数据,献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解建立数据环境:-- 抽取三国超一流谋士TOP 10数据DECLARE @t1 TABLE ( [姓名] NVARCHAR(255) , [统率] FLOAT , ...
阅读全文
摘要:根据游戏《三国志11》武将数据,利用决策树分析,找出三国武将特性分布。其中变量包括统率、武力、智力、政治、魅力、身分。变量说明:统率:武将带兵出征时的部队防御力。统帅越高受到普通攻击与兵法攻击越少。武力:武将带兵出征时的部队攻击力,武力越高发动兵法或者普通攻击时对地方部队的伤害就越高;并且当发动单挑...
阅读全文
摘要:数据准备:一组股票历史成交数据(股票代码:601106 中国一重),起止日期:2011-01-04至今,其中变量有“开盘”、“最高”、“最低”、“收盘”、“总手”、“金额”、“涨跌”等UPDATE FactStockSET [涨跌] = N'涨'WHERE [涨幅] > 0UPDATE...
阅读全文
摘要:Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,然后使用该关系进行预测。该关系采用的表示形式是最能代表数据序列的线的公式。例如,以下关系图中的线是数据最可能的线性表示形式。关系图中的每个数据点都有一个与该数据点与回归线之间距离...
阅读全文
摘要:Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法。您可以使用该算法来研究包含可通过下面的路径或“顺序”链接到的事件的数据。该算法通过对相同的顺序进行分组或分类来查找最常见的顺序。下面是一些顺序示例:用...
阅读全文
摘要:一、前沿 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模...
阅读全文
摘要:一、回归分析目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来。所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和...
阅读全文