2014 年 11月随笔档案 - Bobby0322

Microsoft Naive Bayes 算法——三国人物身份划分

摘要：Microsoft朴素贝叶斯是SSAS中最简单的算法，通常用作理解数据基本分组的起点。这类处理的一般特征就是分类。这个算法之所以称为“朴素”，是因为所有属性的重要性是一样的，没有谁比谁更高。贝叶斯之名则源于Thomas Bayes，他想出了一种运用算术（可能性）原则来理解数据的方法。对此算法的另... 阅读全文

posted @ 2014-11-29 19:50 Bobby0322 阅读(3054) 评论(1) 推荐(2) 编辑

《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分

摘要：什么是聚类分析？聚类分析属于探索性的数据分析方法。通常，我们利用聚类分析将看似无序的对象进行分组、归类，以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高，组间对象相似性较低。在三国数据分析中，很多问题可以借助聚类分析来解决，比如三国人物身份划分。聚类分析的基本过程是怎样的？选择聚类变量... 阅读全文

posted @ 2014-11-25 21:05 Bobby0322 阅读(2615) 评论(0) 推荐(3) 编辑

《BI那点儿事》三国数据分析系列——蜀汉五虎上将与魏五子良将武力分析，绝对的经典分析

摘要：献给广大的三国爱好者们，希望喜欢三国的朋友一起讨论，加深对传奇三国时代的了解数据分析基础概念：集中趋势分析是指在大量测评数据分布中，测评数据向某点集中的情况。总体（population）是指客观存在的，并在同一性质的基础上结合起来的许多个别单位的整体，即具有某一特性的一类事物的全体，又叫母体或全域。... 阅读全文

posted @ 2014-11-24 22:07 Bobby0322 阅读(3516) 评论(2) 推荐(8) 编辑

《BI那点儿事》SSRS图表和仪表——雷达图分析三国超一流谋士、统帅数据（图文并茂）

摘要：雷达图分析三国超一流谋士、统帅数据，献给广大的三国爱好者们，希望喜欢三国的朋友一起讨论，加深对传奇三国时代的了解建立数据环境：-- 抽取三国超一流谋士TOP 10数据DECLARE @t1 TABLE ( [姓名] NVARCHAR(255) , [统率] FLOAT , ... 阅读全文

posted @ 2014-11-22 21:18 Bobby0322 阅读(2892) 评论(4) 推荐(3) 编辑

《BI那点儿事》Microsoft 决策树算法——找出三国武将特性分布，献给广大的三国爱好者们

摘要：根据游戏《三国志11》武将数据，利用决策树分析，找出三国武将特性分布。其中变量包括统率、武力、智力、政治、魅力、身分。变量说明：统率：武将带兵出征时的部队防御力。统帅越高受到普通攻击与兵法攻击越少。武力：武将带兵出征时的部队攻击力，武力越高发动兵法或者普通攻击时对地方部队的伤害就越高；并且当发动单挑... 阅读全文

posted @ 2014-11-20 20:38 Bobby0322 阅读(3133) 评论(3) 推荐(4) 编辑

《BI那点儿事》Microsoft 逻辑回归算法——预测股票的涨跌

摘要：数据准备：一组股票历史成交数据（股票代码：601106 中国一重），起止日期：2011-01-04至今，其中变量有“开盘”、“最高”、“最低”、“收盘”、“总手”、“金额”、“涨跌”等UPDATE FactStockSET [涨跌] = N'涨'WHERE [涨幅] > 0UPDATE... 阅读全文

posted @ 2014-11-19 21:14 Bobby0322 阅读(3626) 评论(4) 推荐(3) 编辑

《BI那点儿事》Microsoft 线性回归算法

摘要：Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体，有助于计算依赖变量和独立变量之间的线性关系，然后使用该关系进行预测。该关系采用的表示形式是最能代表数据序列的线的公式。例如，以下关系图中的线是数据最可能的线性表示形式。关系图中的每个数据点都有一个与该数据点与回归线之间距离... 阅读全文

posted @ 2014-11-19 12:50 Bobby0322 阅读(2038) 评论(2) 推荐(4) 编辑

《BI那点儿事》Microsoft 顺序分析和聚类分析算法

摘要：Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法。您可以使用该算法来研究包含可通过下面的路径或“顺序”链接到的事件的数据。该算法通过对相同的顺序进行分组或分类来查找最常见的顺序。下面是一些顺序示例：用... 阅读全文

posted @ 2014-11-18 13:29 Bobby0322 阅读(1695) 评论(1) 推荐(2) 编辑

《BI项目笔记》无法解密受保护的 XML 节点“DTS:Password” 解决办法

摘要：说明: 无法解密受保护的 XML 节点“DTS:Password”，错误为 0x8009000B“该项不适于在指定状态下使用。”。可能您无权访问此信息。当发生加密错误时会出现此错误。请确保提供正确的密钥。解决办法：1.在Integration Services中找到要执行的包，右键选择导出包，在导出... 阅读全文

posted @ 2014-11-17 17:05 Bobby0322 阅读(2835) 评论(0) 推荐(0) 编辑

《BI项目笔记》SSAS部署时发生的问题——元数据管理器中存在错误解决办法

摘要：在生成和部署期间出错。是否继续？解决办法：用Microsoft SQL Server Management Studio 连接Analysis Services 然后删除多维数据库，重新布署。这样就OK的。阅读全文

posted @ 2014-11-14 16:28 Bobby0322 阅读(1267) 评论(0) 推荐(0) 编辑

《BI项目笔记》挑选产出分析Cube

摘要：数据源设置：数据处理逻辑：--I_GBGradeIDSELECT *FROM T_NPick_PkgMovWHERE I_GBGradeID NOT IN ( SELECT I_GBGradeID FROM T_GBGradeC... 阅读全文

posted @ 2014-11-13 19:47 Bobby0322 阅读(618) 评论(0) 推荐(0) 编辑

《BI项目笔记》报到信息分析Cube

摘要：数据源设置：数据处理逻辑：--处理丢失外键关系数据SELECT *FROM T_ReportLeafGradeWHERE FSubFID NOT IN ( SELECT FID FROM T_RaceLeafReport ) ... 阅读全文

posted @ 2014-11-13 19:34 Bobby0322 阅读(619) 评论(0) 推荐(0) 编辑

《BI那点儿事》浅析十三种常用的数据挖掘的技术

摘要：一、前沿数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式，可以发现的模式有很多种，按功能可以分为两大类：预测性(Predictive)模式和描述性(Descriptive)模... 阅读全文

posted @ 2014-11-12 17:15 Bobby0322 阅读(2919) 评论(0) 推荐(0) 编辑

《BI那点儿事》数据挖掘的主要方法

摘要：一、回归分析目的：设法找出变量间的依存(数量)关系, 用函数关系式表达出来。所谓回归分析法，是在掌握大量观察数据的基础上，利用数理统计方法建立因变量与自变量之间的回归关系函数表达式（称回归方程式）。回归分析中，当研究的因果关系只涉及因变量和一个自变量时，叫做一元回归分析；当研究的因果关系涉及因变量和... 阅读全文

posted @ 2014-11-12 16:57 Bobby0322 阅读(1729) 评论(1) 推荐(1) 编辑

《BI那点儿事》Microsoft Naive Bayes 算法

该文被密码保护。

posted @ 2014-11-12 14:42 Bobby0322 阅读(6) 评论(0) 推荐(0) 编辑

《BI那点儿事》Microsoft 逻辑回归算法

该文被密码保护。

posted @ 2014-11-12 13:23 Bobby0322 阅读(6) 评论(0) 推荐(0) 编辑

《BI那点儿事》Microsoft 聚类分析算法

该文被密码保护。

posted @ 2014-11-12 12:57 Bobby0322 阅读(7) 评论(0) 推荐(0) 编辑

《BI那点儿事》Microsoft 关联算法

该文被密码保护。

posted @ 2014-11-12 10:54 Bobby0322 阅读(9) 评论(0) 推荐(0) 编辑

《BI那点儿事》Microsoft 决策树算法

摘要：Microsoft 决策树算法是由 Microsoft SQL Server Analysis Services 提供的分类和回归算法，用于对离散和连续属性进行预测性建模。对于离散属性，该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值（也称之为状态）预测指定为可预测的列的状态。具体地说，... 阅读全文

posted @ 2014-11-11 15:15 Bobby0322 阅读(1475) 评论(0) 推荐(0) 编辑

《BI那点儿事》Microsoft 神经网络算法

该文被密码保护。

posted @ 2014-11-11 13:01 Bobby0322 阅读(5) 评论(0) 推荐(0) 编辑

《BI那点儿事》Microsoft 时序算法——验证神奇的斐波那契数列

摘要：斐波那契数列指的是这样一个数列 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233，377，610，987，1597，2584，4181，6765，10946，17711，28657，46368斐波那契数列的发明者，是意大利数学家列昂纳多·斐波那契（L... 阅读全文

posted @ 2014-11-10 21:22 Bobby0322 阅读(2287) 评论(0) 推荐(1) 编辑

《BI那点儿事》Microsoft 时序算法

该文被密码保护。

posted @ 2014-11-10 13:00 Bobby0322 阅读(5) 评论(0) 推荐(0) 编辑

【T-SQL系列】临时表、表变量

摘要：临时表临时表与永久表相似，只是它的创建是在Tempdb中，它只有在一个数据库连接结束后或者由SQL命令DROP掉，才会消失，否则就会一直存在。临时表在创建的时候都会产生SQL Server的系统日志，虽它们在Tempdb中体现，是分配在内存中的，它们也支持物理的磁盘，但用户在指定的磁盘里看不到文件。... 阅读全文

posted @ 2014-11-08 20:02 Bobby0322 阅读(746) 评论(0) 推荐(0) 编辑

【T-SQL系列】新的排序函数

摘要：如：ROW_NUMBER、RANK、DENSE_RANK三个分析函数都是按照col1分组内从1开始排序 ROW_NUMBER() 是没有重复值的排序(即使两天记录相等也是不重复的)，可以利用它来实现分页 DENSE_RANK() 是连续排序，两个第二名仍然跟着第三名RANK() ... 阅读全文

posted @ 2014-11-08 10:44 Bobby0322 阅读(326) 评论(0) 推荐(0) 编辑

【T-SQL系列】常用函数—聚合函数

摘要：聚合函数平均值AVG、标准偏差STDEV、方差VAR、最大值MAX、最小值MIN、合计SUM、次数COUNT、极差值MAX-MIN、变异系数STDEV/AVG*100什么是统计统计就是通过样本特性推断总体特性的过程。类似于赌博，有一定的风险。可信度受取样方法、样本大小等因素的影响。统计是科学的为... 阅读全文

posted @ 2014-11-08 10:04 Bobby0322 阅读(2171) 评论(0) 推荐(0) 编辑

《BI那点儿事》数据流转换——模糊分组转换

摘要：在模糊查找中我们提到脏数据是怎样进入到表中的事情，主要还是由于一些“Lazy-add”造成的。这种情况我们的肉眼很容易被欺骗，看上去是同一个单词，其实就差那么一个字母，变成了两个不同的单词。一个简单的例子是X-Ray Tech和xRey，我们很有可能认为他们是同一个职务，CT操作员，但是如果让计算机... 阅读全文

posted @ 2014-11-08 09:15 Bobby0322 阅读(684) 评论(0) 推荐(0) 编辑

《BI那点儿事》数据流转换——模糊查找转换

摘要：BI项目中经常会有一些提取，转换，数据处理（ELT）的工作，其中最主要的是处理过赃数据。假设在项目中我们向数据库中注入了测试数据，但是通过一个外键从另外一个表中载入数据的时候没有对应的数据，那么这一行就是赃数据。这时候可以使用SQL中的Sound-Ex，full-text，相似度算法等方法查找。这种... 阅读全文

posted @ 2014-11-07 16:30 Bobby0322 阅读(749) 评论(0) 推荐(0) 编辑

《BI那点儿事》数据流转换——查找转换

摘要：查找转换通过联接输入列中的数据和引用数据集中的列来执行查找。是完全匹配查找。在源表中查找与字表能关联的所有源表记录。准备数据。源表 T_QualMoisture_Middle_Detail字典表 T_DIC_QualProcess数据流任务设计图：设计步骤：阅读全文

posted @ 2014-11-07 12:52 Bobby0322 阅读(403) 评论(0) 推荐(0) 编辑

《BI那点儿事》数据流转换——OLE DB 命令转换

摘要：OLE DB命令对数据流中的数据行执行一个OLE DB命令。它针对数据表中的每一行进行更新操作，可以事先将要更新的数据存放在表中。或者针对一个有输入参数的存储过程，可以将这些参数存放在一个数据表中，不用每次都输入参数。示例数据准备： CREATE TABLE SourceParametersForS... 阅读全文

posted @ 2014-11-06 16:13 Bobby0322 阅读(582) 评论(0) 推荐(0) 编辑

我的职业理想：成为数据分析师

摘要：我小时候的理想是将来做一名数学家，可惜长大了发现自己天赋不够，理想渐行渐远，于是开始考虑现实，开始做一些人生规划，我一直在思考将来从事何种职业，专注什么样的领域，重新定义着自己的职业理想。我现在的职业理想，比较简单，就是做一名数据分析师。我的职业理想：成为数据分析师为什么要做数据分析师：在通信、互... 阅读全文

posted @ 2014-11-05 09:05 Bobby0322 阅读(910) 评论(0) 推荐(2) 编辑

【T-SQL系列】FOR XML PATH 语句的应用

摘要：DECLARE @TempTable TABLE ( UserID INT , UserName NVARCHAR(50) );INSERT INTO @TempTable ( UserID, UserName )VALUES ( 1, 'a' )I... 阅读全文

posted @ 2014-11-04 16:12 Bobby0322 阅读(319) 评论(0) 推荐(0) 编辑

【T-SQL系列】WITH ROLLUP、WITH CUBE、GROUPING语句的应用

摘要：CUBE 和 ROLLUP 之间的区别在于：CUBE 运算符生成的结果集是多维数据集。多维数据集是事实数据的扩展，事实数据即记录个别事件的数据。扩展建立在用户打算分析的列上。这些列被称为维。多维数据集是一个结果集，其中包含了各维度的所有可能组合的交叉表格。 CUBE 运算符在 SELECT 语句的 ... 阅读全文

posted @ 2014-11-04 15:29 Bobby0322 阅读(3602) 评论(0) 推荐(0) 编辑

《BI项目笔记》历年外观质量均值变化分析Cube的建立

摘要：分析主题主要维度：烟叶级别、烟叶级别按等级信息、烟叶级别按分级标准（标准维度）产地（父子维度）检测时间（时间维度，以Tqc_Raw_PresentationQuality . CheckTime字段派生CheckDate字段）样品维度主要指标：部位_平均值颜色_平均值成熟度_平均值油分_平均值身份_... 阅读全文

posted @ 2014-11-04 11:33 Bobby0322 阅读(582) 评论(0) 推荐(0) 编辑

《BI项目笔记》历年感官评吸质量均值变化分析Cube的建立

摘要：分析主题主要维度：烟叶级别、烟叶级别按等级信息、烟叶级别按分级标准（标准维度）产地（父子维度）检测时间（时间维度，以Tqc_Raw_SmokingTest .CheckTime字段派生CheckDate字段）样品维度主要指标：香气特征_清香_平均值香气特征_甜香_平均值香气特征_焦香_平均值烟气特征... 阅读全文

posted @ 2014-11-04 09:31 Bobby0322 阅读(563) 评论(0) 推荐(0) 编辑

《BI项目笔记》历年的初烟水分均值变化分析Cube的建立

摘要：主要维度：班组班次检测项质检日期（时间维度）加工客户加工类型收购类型生产线产地烟叶级别主要指标：慢速测定_平均值快速测定_平均值红外测定_平均值ETL设计需要抽取的维度表：序号表名说明备注1T_Department班组YYERP库中对应表T_Department2T_TeamOrder班次YYERP... 阅读全文

posted @ 2014-11-03 10:38 Bobby0322 阅读(572) 评论(0) 推荐(0) 编辑

Bobby0322

专注OOAD、BI、数据分析技术 ... 学习在于不断的总结和积累，希望借此平台结识更多志同道合的朋友.

11 2014 档案

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论