博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  06数据仓库与建模

摘要:ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)、信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统,用来记录事务处理的各种相关数据。据统计,数据量每2~3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以致于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶 阅读全文

posted @ 2012-05-11 17:29 徐正柱- 阅读(28543) 评论(3) 推荐(2) 编辑

摘要:Informatica PowerCenter 开发规范一、资料库管理 在资料库的管理过程中,由于各种原因,需要重起资料库服务时,需要通知各位相关人员并在重起时同时重 起Informatica服务。 Folder的建立,由管理员根据业务需求建立,并对其进行授权。建立与用户同名文件夹, 并设置该文件夹的Owner为该用户,且设置其它用户及组只有读权限。(如图 2)图 2二、设计规范 1、Source导入 关系数据库:采用ODBC方式读入元数据,且元数据放置位置与ODBC命名有关,本地ODBC命名需与服务器 相同。对于各用户,ODBC命名采用:用户名_SOURCE(例:MM_SOURCE... 阅读全文

posted @ 2012-02-15 18:05 徐正柱- 阅读(696) 评论(0) 推荐(0) 编辑

摘要:一、项目启动准备阶段1、由甲方组建项目委员会,该委员会成员应包含BI系统建设项目所涉及的所有部门的甲方工作人员,并指派一名项目委员会负责人,全权负责整个项目的启动、人员及时间协调、需求的确认及变更、项目节点的验收、项目款项的支付工作。2、由乙方组建项目实施工作组,该工作组包含项目的需求咨询工程师、项目技术实施工程师, 并指定一名项目工作组负责人,负责项目整个实施工作中乙方人员的调动、项目节点的控制、项目的交付及验收工作, 并为客户建立项目档案。项目档案包括:《BI系统建设项目实施工作流程》、《项目咨询需求文档》、《项目实施文档》、《项目组成员通讯录》、《项目实施工作组成员出勤记录》、《项目阶段 阅读全文

posted @ 2011-09-22 12:01 徐正柱- 阅读(1064) 评论(0) 推荐(0) 编辑

摘要:COGNOS主要产品比较产品功能-模型设计产品模型设计组件描述Cognos 8 BIFramework能定义视图间表及数据项的关系,构建ROLAP多维数据模型,操作方法复杂,只能进行简单度量运算,不能创建衍生指标,需要在报表层设计。Transformer能构建MOLAP多维数据模型,操作复杂,能创建衍生指标,能进行度量的聚合运算设计Metric Designer能抽取度量数据,构建计分卡模型,易用Cognos 10 BIFramework 优化了如Framework Manager中的Diagram,方便快速定位各视图间(表、查询主项)关系Transformer同C8,构建MOLAP多维数据模 阅读全文

posted @ 2011-08-01 16:28 徐正柱- 阅读(1069) 评论(0) 推荐(0) 编辑

摘要:BI前端工具比较1. 报表工具软件各项目比较:项目MSTRBOOracle BIEECognos 8产品功能安装部署客户端无任何安装;服务端的安装全程自动化,没有专用的设置参数的输入,较容易安装。安装前需要改区域设置和本地安全策略,容易安装失败,并且不支持。安装过程类似于安装ORACLE数据库,且需要设置配置文件NQSConfig.ini,在安装向导较方便安装成功。安装需要经过指导,安装后的配置较烦琐,容易安装失败。支持Windows,unix等主流OS平台支持Windows,unix等主流OS平台支持Windows,unix等主流OS平台支持Windows,unix等主流OS平台兼容性MST 阅读全文

posted @ 2011-08-01 16:20 徐正柱- 阅读(2222) 评论(0) 推荐(0) 编辑

摘要:本系列第二和第三篇文章演示了同步CDC和异步HotLog CDC的实现,这两种模式都是在source database中捕获增量数据,所以配置只涉及到一个数据库,相对来说比较简单。而异步CDC的另外两种模式:Distributed HotLog和AutoLog,需要分别配置source databa... 阅读全文

posted @ 2010-03-08 11:49 徐正柱- 阅读(739) 评论(0) 推荐(0) 编辑

摘要:本文主要是通过一个实际的例子演示异步HotLog模式CDC的实现步骤。关于CDC的概念和模式介绍,请参考关于Change Data Capture(一)一.版本SYS@ning>select * fromv$version;BANNER--------------------------------... 阅读全文

posted @ 2010-03-08 11:48 徐正柱- 阅读(938) 评论(0) 推荐(0) 编辑

摘要:一、概述 CDC(Change Data Capture)是oracle在数据库级别实现的增量抽取解决方案。在一般的ETL过程中,对于增量抽取,无非是在数据上加时间截,全记录比对,关键字段比对,日志分析抽取等几种方法,要么需要修改原表结构,要么需要大量的算法,要么借助第三方的工具实现。Oracle从... 阅读全文

posted @ 2010-03-08 11:47 徐正柱- 阅读(1053) 评论(0) 推荐(0) 编辑

摘要:下面运用Performing Synchronous Publishing的方式实现Change Data Capture。为了实现同步捕获改变数据,publisher必须用预定义的change source, SYNC_SOURCE。publisher可以自行定义新的change sets ,也可... 阅读全文

posted @ 2010-03-04 13:50 徐正柱- 阅读(381) 评论(0) 推荐(0) 编辑

摘要:重启DataStage时的注意事项2008-07-03 10:10DataStage在正常运行时候有以下两个主要的进程:1.dsrpcd(DS的主进程)$ps -ef | grep dsrpcdroot 1602486 1 0 09:42:17 pts/5 0:00 /app/dsadm/Ascential/DataStage/DSEngine/bin/dsrpcd2.JobMonApp(jobmonitor的进程)$ps -ef | grep JobMonroot 668620 1 0 09:42:22 pts/5 0:02 /app/dsadm/Ascential/DataStage/PX 阅读全文

posted @ 2008-08-26 22:44 徐正柱- 阅读(730) 评论(0) 推荐(0) 编辑

摘要:(5)配置好后,进入对应目录使这两个文件立即生效source dsenvsource .bash_profile(6)重启DSuv -admin -stopuv -admin -start(7)在客户端新建JOB进行测试,下面的是我的测试JOB(8)oracle和DS是在同一台服务器上,DS使用oracle时候要对以下视图赋权限DBA_EXTENTSDBA_DATA_FILESDBA_TAB_PARTITONSDBA_OBJECTSALL_PART_INDEXESALL_PART_TABLESALL_INDEXESSYS.GV_$INSTANCE (Only if Oracle Paralle 阅读全文

posted @ 2008-08-26 18:35 徐正柱- 阅读(654) 评论(0) 推荐(0) 编辑

摘要:安装后的配置(1)编辑/app/dsadm/Ascential/DataStage/DSEngine/目录下dsenv文件,我的dsenv文件内容为:#!/bin/sh###################################################################### dsenv - DataStage environment file## Copyright (c) 1997 - 2004 Ascential Software Corporation. All Rights Reserved# This is unpublished proprieta 阅读全文

posted @ 2008-08-26 18:32 徐正柱- 阅读(1198) 评论(0) 推荐(0) 编辑

摘要:安装过程中,可以监控日志cd /tmp/dsinstall/longfile/tail -f dsinstall.log.*直到看见Starting JobMonAppJobMonApp has been started.Done.这些信息时候,说明已安装成功.用ps -ef | grep dsrpcd命令看ds后台进程是否运行.ps -ef | grep JobMon 看JobMonApp进程是否运行.如果在日志文件中最后没有出现上面的信息,则安装失败.另安装时候,将前面的安装目录删除rm -r /app/dsadm/Ascential/然后另安装. 阅读全文

posted @ 2008-08-26 18:30 徐正柱- 阅读(494) 评论(0) 推荐(0) 编辑

摘要:(16)输入n继续 (17)确认安装信息之后输入n开始安装... 阅读全文

posted @ 2008-08-26 18:30 徐正柱- 阅读(329) 评论(0) 推荐(0) 编辑

摘要:(10)选择插件,先选择a全部,再输入n下一步. (11)工程路径,回车继续 (12)输入project名称EDW,回车继续 (13)输入U选择unprotected project,继续 (14) DataStage引擎安装路径,输入 n 继续 (15)输入oracle安装路径,也就是安装oracle时候环境变量$ORALCE_HOME的值. 如果在输入了正确... 阅读全文

posted @ 2008-08-26 18:27 徐正柱- 阅读(532) 评论(0) 推荐(0) 编辑

摘要:(6)输入serial number,CPU count,expiration date,enterprise edition code, server code,输入 n 继续,MVS edition code不用输入 (7) 因为未购买RTI Agent,SAS Integration,IMS Source,所以不用输入以上三个code, 输入 n 继续 (8) 默认安装... 阅读全文

posted @ 2008-08-26 18:19 徐正柱- 阅读(488) 评论(0) 推荐(0) 编辑

摘要:1)提示这是一个新的安装,输入y继续(2)确认安装,输入n下一步(3)输入n继续 (4) license agreement,输入 y 继续 (5)选择安装文件临时存放目录,此目录必须存在,dsadm用户要有存取权限,且目录必须为空,输入 c 改变临时目录 阅读全文

posted @ 2008-08-26 18:08 徐正柱- 阅读(605) 评论(0) 推荐(0) 编辑

摘要:安装前确保oracle10g已安装好,并能正常使用。安装方法见:http://hi.baidu.com/lxw1234/blog/item/211b510eba886fcf7bcbe1df.html用root用户进入系统,升级tar版本为1.19,如果比这个版本高,则不用升级解压tar-1.19.tar进入解压后的目录./configuremakemake install完成之后查看tar版本tar --version若为1.19,则进行下一步操作。。mkdir -p /app/dsadmgroupadd dstageuseradd -g dstage -m dsadmchown -R dsa 阅读全文

posted @ 2008-08-26 17:47 徐正柱- 阅读(1123) 评论(0) 推荐(1) 编辑

摘要:摘要 本文描述分层管理器的原理、步骤、限制,并和Oracle数据仓库相结合实现了地学数据的有效存储、管理以及大范围数据的快速浏览。 关键字 分层管理器 元数据 快速浏览 前言 21世纪是信息的世纪,综合国力的竞争在很大程度上是信息的竞争,更是信息利用率的竞争。近年来,随着“数字地球”和“数字国土”战略的提出和实施,地学领域的海量数据飞速增长,数据的存储、分析、管理和... 阅读全文

posted @ 2008-08-01 10:14 徐正柱- 阅读(494) 评论(0) 推荐(0) 编辑

摘要:在上一期的专栏文章中,我们曾经提到:数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端(图一:pic1.bmp)其中,数据仓库(DW)起到了数据大集中的作用。通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小时一次(当然是自动的)。这个过程,我们称之为ETL过程。那么,今天,我们就来谈一谈:如何搭建数据仓库,在这个过程中都应该遵循哪些方法和原则;然后介绍一些项目实践中的技巧。一、数据仓库的架构数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源 阅读全文

posted @ 2008-08-01 10:07 徐正柱- 阅读(1980) 评论(0) 推荐(2) 编辑