随笔分类 -  BI开发

摘要:前言此篇为微软系列挖掘算法的最后一篇了,完整该篇之后,微软在商业智能这块提供的一系列挖掘算法我们就算总结完成了,在此系列中涵盖了微软在商业智能(BI)模块系统所能提供的所有挖掘算法,当然此框架完全可以自己扩充,可以自定义挖掘算法,不过目前此系列中还不涉及,只涉及微软提供的算法,当然这些算法已经基本涵... 阅读全文
posted @ 2014-11-06 13:50 指尖流淌 阅读(4289) 评论(5) 推荐(2) 编辑
摘要:前言有段时间没有进行我们的微软数据挖掘算法系列了,最近手头有点忙,鉴于上一篇的神经网络分析算法原理篇后,本篇将是一个实操篇,当然前面我们总结了其它的微软一系列算法,为了方便大家阅读,我特地整理了一篇目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载,我打算将微软商业智能中在DM这块所用到的算法... 阅读全文
posted @ 2014-11-02 20:19 指尖流淌 阅读(4281) 评论(8) 推荐(4) 编辑
摘要:前言本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍,我为了展示方便,特地的整理了一个目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载,有兴趣的童鞋可以点击查阅,在开始Microsoft 神经网络分析算法之前,本篇我们先将神经网络分析算法做一个简单介绍,此... 阅读全文
posted @ 2014-10-26 21:12 指尖流淌 阅读(11106) 评论(8) 推荐(4) 编辑
摘要:前言本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍,我为了展示方便,特地的整理了一个目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载,有兴趣的童鞋可以点击查阅,本篇我们将要总结的算法为:Microsoft顺序分析和聚类分析算法,此算法为上一篇中的关联规则... 阅读全文
posted @ 2014-10-21 10:25 指尖流淌 阅读(3672) 评论(2) 推荐(2) 编辑
摘要:本系列文章主要是涉及内容为微软商业智能(BI)中一系列数据挖掘算法的总结,其中涵盖各个算法的特点、应用场景、准确性验证以及结果预测操作等,所采用的案例数据库为微软的官方数据仓库案例(AdventureWorksDW2008R2),数据库基于Microsoft SQL Server 2008,主要涉及... 阅读全文
posted @ 2014-10-20 10:27 指尖流淌 阅读(11748) 评论(4) 推荐(11) 编辑
摘要:前言本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法、Microsoft 时序算法,后续还补充了二篇结果预测篇、Microsoft 时序算法——结果预算+下期彩票预测篇,看样子... 阅读全文
posted @ 2014-10-17 22:03 指尖流淌 阅读(6955) 评论(2) 推荐(7) 编辑
摘要:前言本篇我们将总结的算法为Microsoft时序算法的结果预测值,是上一篇文章Microsoft时序算法的一个总结,上一篇我们已经基于微软案例数据库的销售历史信息表,利用Microsoft时序算法对其结果进行了预测,并且相应形成了折线预测图和模型依赖属性,有兴趣的同学可以点击查看,但是上篇文章的能给... 阅读全文
posted @ 2014-10-15 19:51 指尖流淌 阅读(14805) 评论(8) 推荐(8) 编辑
摘要:前言本篇文章同样是继续微软系列挖掘算法总结,前几篇主要是基于状态离散值或连续值进行推测和预测,所用的算法主要是三种:Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法,当然后续还补充了一篇结果预测篇,所涉及的应用场景在前几篇文章中也有介... 阅读全文
posted @ 2014-10-14 15:21 指尖流淌 阅读(6304) 评论(10) 推荐(9) 编辑
摘要:前言本篇文章主要是继续前几篇Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法,算法介绍后,经过这几种算法综合挖掘和分析之后,对一份摆在公司面前的人员信息列表进行推测,挖掘出这些人员信息中可能购买自行车的群体,把他们交个营销部,剩下的事... 阅读全文
posted @ 2014-10-10 16:52 指尖流淌 阅读(5837) 评论(11) 推荐(9) 编辑
摘要:本篇文章主要是继续上两篇Microsoft决策树分析算法和Microsoft聚类分析算法后,采用另外更为简单一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。有兴趣的同学可以先参照上面两种算法过程。应用场景介绍通过前面两种算法的应用场景介绍,此次总结的Microsoft Naiv... 阅读全文
posted @ 2014-10-09 15:40 指尖流淌 阅读(4511) 评论(2) 推荐(4) 编辑
摘要:本篇文章主要是继续上一篇Microsoft决策树分析算法后,采用另外一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。应用场景介绍通过上一篇中我们采用Microsoft决策树分析算法对已经发生购买行为的订单中的客户属性进行了分析,可以得到几点重要的信息,这里做个总结:1、对于影响... 阅读全文
posted @ 2014-10-07 21:11 指尖流淌 阅读(9657) 评论(5) 推荐(13) 编辑
摘要:随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结。应用场景介绍其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据挖掘,之前我们没有应用是因为还没有学会利用数据,或者说还没有体会到数据的重要性,现在随着IT行业中大数据... 阅读全文
posted @ 2014-09-29 21:10 指尖流淌 阅读(14817) 评论(20) 推荐(16) 编辑
摘要:记录几个简单常用SSIS包常用属性,都是通用属性:1、Disable 设置属性为true是该任务不能执行2、DelayValidation 设置为true只至运行时才验证任务中的属性,在非连接状态下和为任务包输入一个外部参数值但是直到部署时才验证这种情况下会很有用。它的默认设置为false3、Description 该属性描述任务包的情形。默认的值是<task name>,如果多个任务类型相同则设置为<task name 1>(数字1递增)。这个属性不是唯一的,只需要准确描述任务包项目方便其他人理解4、ExecValueVariable 存储任务输出的用户变量,默认的值 阅读全文
posted @ 2012-04-25 21:32 指尖流淌 阅读(1041) 评论(1) 推荐(0) 编辑
摘要:目的多数数据集必须完成下面几个过程:选择引入多维数据集的事实表数据和维度。在多维数据集向导中,首先要选择一个数据源视图。引入多维数据集中的所有事实表和维度表都包含在这个数据源视图中。接着,要标示用于多维数据集中的所有的事实表和维度表都必须包含在这个数据源视图中。接着,要标识用于在多维数据集中创建度量值的事实表列。对于每个事实表,向导都将创建一个度量值组,包含了由表中各列所创建的度量值组。在每个度量值组中,而度量值组中至少有一个度量值,但大数情况下,我们都会选择在多维数据集中创建多个度量值组。对于相同的多维数据集中的多个度量值组来说,当其中至少有一个相同的维度时最有意义。在选择好要引入多维数据集 阅读全文
posted @ 2012-04-15 23:02 指尖流淌 阅读(1538) 评论(4) 推荐(1) 编辑
摘要:在SSIS开发ETL(Extract-Transform-Load),数据抽取、转换、装载的过程。我们需要自己定义变量一、SSIS变量简介SSIS(SQL Server Integration Services,SQL Server整合服务)变量分分为两种,一种是系统变量,一种用户定义的变量。系统变量包括有关包、容器、任务或事件处理程序的非常有用的信息。例如,在运行时,MachineName系统变量包含运行包含的计算机的名称,StartTime变量包开始运行的时间。系统变量是只读的。在SSIS中,用户变量是用户在开发的过程中根据需要申明的变量。用户变量可以使用在脚本中,在由优先约束、For循环 阅读全文
posted @ 2012-03-27 23:02 指尖流淌 阅读(8971) 评论(1) 推荐(3) 编辑
摘要:目的前面我们学习了如何创建维度,在本章中,我们将使用多维数据集向导将这些维度与数值在多维数据集中结合起来。接着,将使用多维数据集设计器来修改多维数据集,使其方便使用,并添加度量值和计算,增强其功能。内容在设计器多维数据集之前,应该熟悉包含在事实表中的数据,这些数据将被装载到多维数据集的度量值组中。查看事实数据,并尝试理解组织的业务流程是如何产生这些数据的。您需要知道该用每个事实表中的那些列来创建多维数据集中的度量值。关系型数据库表名称和列名称通常是隐晦的。并且这些列中不包含任何关于数据应该如何被格式化的信息。我们可以给度量值组合度量值添加更加方便使用的名字,并对数据进行格式化。确定每一个事实应 阅读全文
posted @ 2012-03-12 14:35 指尖流淌 阅读(654) 评论(0) 推荐(0) 编辑
摘要:目的在许多组织中,管理者有他们个人的工作指标和基于团队的工作指标。在这些情况下,管理者的名字需要在Employees维度中出现两次。同时,还需要判断这两个名字实例中,那个代表管理者自身的工作指标,那个代表他的团队的工作指标。我们通过父子维度来管理好这两种指标。内容下图展示了David Bradley团队的Employee维度的一小部分。David Bradley作为父成员的实例代表了其团队的工作指标。通常情况下,这是团队成员的累加或平均值。David Bradley作为子成员的实例代表了他个人的工作指标。子成员也被称作数据成员。我们可以对他们做标记,使其容易识别。我们此处“(Direct)”作 阅读全文
posted @ 2012-03-11 21:50 指尖流淌 阅读(1175) 评论(0) 推荐(3) 编辑
摘要:目的父子维度的不同之处在于处于其包含了一个基于递归关系(Recursive relationship)的层次关系,比如,上级和下级雇员的层次结构关系是典型的递归关系。在一线工作的雇员会有一个主管,而该主管也是一名雇员。监督者之上会有一名同样的雇员的管理者,而管理者之上也会有一名同样的雇员的经理。经理会有一名行政助理,而行政助理没有下属。组织中的递归雇员关系可以使用雇员(Emporee)维度表来模拟,其中每位雇员包含一条记录。表的主键是EmployeeKey列,包含了对应于每位雇员的唯一的ID。雇员的上级管理者所拥有的唯一的ID保存在ParentEmployeeKey列。也就说,ParentEm 阅读全文
posted @ 2012-03-11 15:23 指尖流淌 阅读(1497) 评论(0) 推荐(2) 编辑
摘要:目的联系创建时间维度自定义层次结构内容1、在“属性”窗格中右击Calendar Year属性,并选择“启用新的层次结构”2、将Calendar Quarter属性从“属性”窗口拖动到“<新级别>”上3、重复上述步骤,将Month和Date属性添加进来4、右击层次结构表头并选择“重命名”,输入Calendar Date5、右击Month级别并选择“重命名”,输入Calendar Month。现在我们已经创建一个新的用户自定义层次结构Calendar Date,包含下图所示的Calendar Year、Calendar Quarter、Calendar Month和Date级别。我们来 阅读全文
posted @ 2012-03-11 11:42 指尖流淌 阅读(1304) 评论(0) 推荐(2) 编辑
摘要:目的 在我们实际项目中,很少存在项目不创建时间维度的OLAP数据库。通常情况下,时间维度将月度作为最低的细节级别——聚合成季度或年度。有时候,时间维度以天作为最低的细节。偶尔的情况下也可能会创建分钟甚至秒作为最低级别的维度,比如:在监控依稀那个制造业务或互联网活动、股票等。不管是那种级别的细节数据,时间维度都具有一些独特的属性。 例如,时间通常以固定的时间间隔出现。每小时有60分钟,每天有24小时,每季度有3个月每年有4个季度。时间的自然重复性促使了某些问题的产生,例如,“今年的某月和去年同期相比怎样”。其实如果我们应用MDX具备轻松回答此类问题,通过将一个维度标记为时间维度,并将该维度中的某 阅读全文
posted @ 2012-03-10 16:32 指尖流淌 阅读(1586) 评论(0) 推荐(2) 编辑

点击右上角即可分享
微信分享提示