11 2014 档案
摘要:Microsoft朴素贝叶斯是SSAS中最简单的算法,通常用作理解数据基本分组的起点。这类处理的一般特征就是分类。这个算法之所以称为“朴素”,是因为所有属性的重要性是一样的,没有谁比谁更高。贝叶斯之名则源于Thomas Bayes,他想出了一种运用算术(可能性)原则来理解数据的方法。对此算法的另...
阅读全文
摘要:什么是聚类分析?聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在三国数据分析中,很多问题可以借助聚类分析来解决,比如三国人物身份划分。聚类分析的基本过程是怎样的?选择聚类变量...
阅读全文
摘要:献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解数据分析基础概念:集中趋势分析是指在大量测评数据分布中,测评数据向某点集中的情况。总体(population)是指客观存在的,并在同一性质的基础上结合起来的许多个别单位的整体,即具有某一特性的一类事物的全体,又叫母体或全域。...
阅读全文
摘要:雷达图分析三国超一流谋士、统帅数据,献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解建立数据环境:-- 抽取三国超一流谋士TOP 10数据DECLARE @t1 TABLE ( [姓名] NVARCHAR(255) , [统率] FLOAT , ...
阅读全文
摘要:根据游戏《三国志11》武将数据,利用决策树分析,找出三国武将特性分布。其中变量包括统率、武力、智力、政治、魅力、身分。变量说明:统率:武将带兵出征时的部队防御力。统帅越高受到普通攻击与兵法攻击越少。武力:武将带兵出征时的部队攻击力,武力越高发动兵法或者普通攻击时对地方部队的伤害就越高;并且当发动单挑...
阅读全文
摘要:数据准备:一组股票历史成交数据(股票代码:601106 中国一重),起止日期:2011-01-04至今,其中变量有“开盘”、“最高”、“最低”、“收盘”、“总手”、“金额”、“涨跌”等UPDATE FactStockSET [涨跌] = N'涨'WHERE [涨幅] > 0UPDATE...
阅读全文
摘要:Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,然后使用该关系进行预测。该关系采用的表示形式是最能代表数据序列的线的公式。例如,以下关系图中的线是数据最可能的线性表示形式。关系图中的每个数据点都有一个与该数据点与回归线之间距离...
阅读全文
摘要:Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法。您可以使用该算法来研究包含可通过下面的路径或“顺序”链接到的事件的数据。该算法通过对相同的顺序进行分组或分类来查找最常见的顺序。下面是一些顺序示例:用...
阅读全文
摘要:说明: 无法解密受保护的 XML 节点“DTS:Password”,错误为 0x8009000B“该项不适于在指定状态下使用。”。可能您无权访问此信息。当发生加密错误时会出现此错误。请确保提供正确的密钥。解决办法:1.在Integration Services中找到要执行的包,右键选择导出包,在导出...
阅读全文
摘要:在生成和部署期间出错。是否继续?解决办法:用Microsoft SQL Server Management Studio 连接Analysis Services 然后删除多维数据库,重新布署。这样就OK的。
阅读全文
摘要:数据源设置:数据处理逻辑:--I_GBGradeIDSELECT *FROM T_NPick_PkgMovWHERE I_GBGradeID NOT IN ( SELECT I_GBGradeID FROM T_GBGradeC...
阅读全文
摘要:数据源设置:数据处理逻辑:--处理丢失外键关系数据SELECT *FROM T_ReportLeafGradeWHERE FSubFID NOT IN ( SELECT FID FROM T_RaceLeafReport ) ...
阅读全文
摘要:一、前沿 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模...
阅读全文
摘要:一、回归分析目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来。所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和...
阅读全文
摘要:Microsoft 决策树算法是由 Microsoft SQL Server Analysis Services 提供的分类和回归算法,用于对离散和连续属性进行预测性建模。对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值(也称之为状态)预测指定为可预测的列的状态。具体地说,...
阅读全文
摘要:斐波那契数列指的是这样一个数列 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368斐波那契数列的发明者,是意大利数学家列昂纳多·斐波那契(L...
阅读全文
摘要:临时表临时表与永久表相似,只是它的创建是在Tempdb中,它只有在一个数据库连接结束后或者由SQL命令DROP掉,才会消失,否则就会一直存在。临时表在创建的时候都会产生SQL Server的系统日志,虽它们在Tempdb中体现,是分配在内存中的,它们也支持物理的磁盘,但用户在指定的磁盘里看不到文件。...
阅读全文
摘要:如:ROW_NUMBER、RANK、DENSE_RANK三个分析函数都是按照col1分组内从1开始排序 ROW_NUMBER() 是没有重复值的排序(即使两天记录相等也是不重复的),可以利用它来实现分页 DENSE_RANK() 是连续排序,两个第二名仍然跟着第三名RANK() ...
阅读全文
摘要:聚合函数平均值AVG、标准偏差STDEV、方差VAR、最大值MAX、最小值MIN、合计SUM、次数COUNT、极差值MAX-MIN、变异系数STDEV/AVG*100什么是统计统计 就是通过样本特性推断总体特性的过程。类似于赌博,有一定的风险。可信度受取样方法、样本大小等因素的影响。统计是科学的为...
阅读全文
摘要:在模糊查找中我们提到脏数据是怎样进入到表中的事情,主要还是由于一些“Lazy-add”造成的。这种情况我们的肉眼很容易被欺骗,看上去是同一个单词,其实就差那么一个字母,变成了两个不同的单词。一个简单的例子是X-Ray Tech和xRey,我们很有可能认为他们是同一个职务,CT操作员,但是如果让计算机...
阅读全文
摘要:BI项目中经常会有一些提取,转换,数据处理(ELT)的工作,其中最主要的是处理过赃数据。假设在项目中我们向数据库中注入了测试数据,但是通过一个外键从另外一个表中载入数据的时候没有对应的数据,那么这一行就是赃数据。这时候可以使用SQL中的Sound-Ex,full-text,相似度算法等方法查找。这种...
阅读全文
摘要:查找转换通过联接输入列中的数据和引用数据集中的列来执行查找。是完全匹配查找。在源表中查找与字表能关联的所有源表记录。准备数据。源表 T_QualMoisture_Middle_Detail字典表 T_DIC_QualProcess数据流任务设计图:设计步骤:
阅读全文
摘要:OLE DB命令对数据流中的数据行执行一个OLE DB命令。它针对数据表中的每一行进行更新操作,可以事先将要更新的数据存放在表中。或者针对一个有输入参数的存储过程,可以将这些参数存放在一个数据表中,不用每次都输入参数。示例数据准备: CREATE TABLE SourceParametersForS...
阅读全文
摘要:我小时候的理想是将来做一名数学家,可惜长大了发现自己天赋不够,理想渐行渐远,于是开始考虑现实,开始做一些人生规划,我一直在思考将来从事何种职业,专注什么样的领域,重新定义着自己的职业理想。我现在的职业理想,比较简单,就是做一名数据分析师。我的职业理想:成为数据分析师 为什么要做数据分析师:在通信、互...
阅读全文
摘要:DECLARE @TempTable TABLE ( UserID INT , UserName NVARCHAR(50) );INSERT INTO @TempTable ( UserID, UserName )VALUES ( 1, 'a' )I...
阅读全文
摘要:CUBE 和 ROLLUP 之间的区别在于:CUBE 运算符生成的结果集是多维数据集。多维数据集是事实数据的扩展,事实数据即记录个别事件的数据。扩展建立在用户打算分析的列上。这些列被称为维。多维数据集是一个结果集,其中包含了各维度的所有可能组合的交叉表格。 CUBE 运算符在 SELECT 语句的 ...
阅读全文
摘要:分析主题主要维度:烟叶级别、烟叶级别按等级信息、烟叶级别按分级标准(标准维度)产地(父子维度)检测时间(时间维度,以Tqc_Raw_PresentationQuality . CheckTime字段派生CheckDate字段)样品维度主要指标:部位_平均值颜色_平均值成熟度_平均值油分_平均值身份_...
阅读全文
摘要:分析主题主要维度:烟叶级别、烟叶级别按等级信息、烟叶级别按分级标准(标准维度)产地(父子维度)检测时间(时间维度,以Tqc_Raw_SmokingTest .CheckTime字段派生CheckDate字段)样品维度主要指标:香气特征_清香_平均值香气特征_甜香_平均值香气特征_焦香_平均值烟气特征...
阅读全文
摘要:主要维度:班组班次检测项质检日期(时间维度)加工客户加工类型收购类型生产线产地烟叶级别主要指标:慢速测定_平均值快速测定_平均值红外测定_平均值ETL设计需要抽取的维度表:序号表名说明备注1T_Department班组YYERP库中对应表T_Department2T_TeamOrder班次YYERP...
阅读全文