摘要:27 December, 2011: release 1.0.0 availableAfter six years of gestation, Hadoop reaches 1.0.0! This release is from the 0.20-security code line, and includes support for:securityHBase (append/hsynch/hflush, and security)webhdfs (with full support for security)performance enhanced access to local file
阅读全文
摘要:最近在一直在研究hadoop的使用,主要是集中在数据仓库的应用这块。今天突然和一个业内的朋友聊起大型电子商务网站CRM系统建设的技术问题。CRM系统最基本的功能就是查询某个用户在我们网站进行的所有的操作,光这个需求,对于有千万级别用户的网站来说,设计起来就相当繁琐。比如查A用户在我们网站的所有交易订单记录,那么如果你是架构师,你会怎么设计?通常的想法还是按照用户建分库,分表,把不同的用户段的订单存放在不同的库中,从而可以拆分库的目的,这样从一定程度上来说确实可以解决问题,但是治标不治本,随着网站的继续交易,总有一天分库也会达到查询能力的极限,到时候只有继续拆分库,这是一个痛苦的轮回。今天我提出
阅读全文
摘要:今天去关注了一下hadoop的官网,发现hive0.7.0发布了;其中有两个新特性非常有用,一个是可以创建索引了,另外一个是可以实现用户安全认证了。
阅读全文
摘要:最近在优化公司的数据仓库项目中ETL部分,发现有一处明显可以改进的地方,发出来和大家分享一下。在数据仓库中一个一个超级大维度表(1亿左右的记录),更新这个维度表的时候,采取的策略是最简单的1类渐变维度,即存在则更新,不存在则插入。原先的方式是在ETL过程中先查找这个大表本身,如果存在就打上update标记,不存在就打上insert标记,最后通过分支来分别插入和更新数据记录。每次执行这个job的时候...
阅读全文
摘要:数据仓库架构1.企业的数据仓库已经从50GB增长到了1TB。它最初仅有50个用户,而现在已增长到300个用户。系统的响应慢得吓人,用户怨声载道,DBA在数据仓库的扩展和性能方面遇到的极大的困难。所有的新需求都被置之不理。所有的一切都是由于最初的架构引起的,这个架构只考虑了50G空间和50个用户。而目前架构中的任何变化都将是高代价和破坏性的。面对这种局面,数据仓库设计师应该如何处理?2.一家企业内有...
阅读全文
摘要:性能1.一家企业把一个较大的财务、培训和实现责任都托付给一个软件产品。但是这个软件产品目前的性能出现了问题,几乎不能运转了。面对这种局面,这家企业应该做些什么呢?2.一家企业的数据仓库中数据量的增长比它的源系统数据量增长快得多。硬件的成本已经超出了预算,而且眼前没有停止的迹象。管理层很担心,并提出了两个较难回答的问题。这个数据仓库该不该比源系统数据增长得更快?如果不,数据仓库经理能够采用什么样的措...
阅读全文
摘要:数据质量1.一个数据质量分析师正在试图分析一个数据仓库之中数据的质量状况。这个数据仓库的数据量非常的大,数据质量分析师准备用抽样的方式进行分析。但是他不知道需要抽样多少数据,如何抽样,以及如何向用户解释抽样分析的结果是准确的。这位数据质量分析师应该如何来进行工作呢?2.一个电信公司有一个含有14TB数据的数据仓库。这家公司估计到,该数据中有10TB以上的数据可能是冗余的。这家公司没有命名约束,其中...
阅读全文
摘要:数据整合1.一家拥有650个经销商的汽车制造公司,有3个独立的经销管理系统,这650个经销商都有自己的数据库。这家企业应该如何来收集、清理并整合这些数据呢?2.一家企业为了保证企业内数据的一致性,委任了一名数据管理经理为整个企业创建一个统一的企业数据模型。但是,企业内有两个项目正准备开工,而且两个项目经理都不愿意等企业数据模型的建成。没有企业数据模型的情况下,建立的信息系统很难和企业内的其他系统进...
阅读全文
摘要:工具与供应商1.一个非盈利性企业正准备建立一个数据仓库,来跟踪他们全体成员的活动。这样一个大的项目需要一个需求建议书,其中会有筛选供应商的资料等内容。但是,企业的高级管理人员不希望这个需求建议书影响他们的进度。面对这种局面,企业应该采取什么样的对策?2.一家企业的数据仓库建好之后,发现经过培训的用户只有5%的人经常使用。而没有使用的人员对查询和报表制作工具不满意,因此不使用数据仓库。面对这种局面,...
阅读全文
摘要:安全1.一个企业建立了一个数据仓库系统,用来分析企业的部门及产品相关盈利能力。数据仓库实现不久,项目经理被CFO叫到办公室,被要求解释为什么一位职位低下的金融分析师能够在数据仓库中查看详细的工资记录,这些数据在公司中只有副总裁才可以访问。显然,这个数据仓库中没有建立安全计划。面对这种局面,这家企业怎么才能扭转这种局面呢?2.一位数据仓库咨询人员告诉一家企业,他们必须考虑数据仓库内的安全问题,并应该...
阅读全文
摘要:数据仓库标准1.一家企业要建设一个数据仓库,但是这家企业的工作人员没有数据仓库的使用经验,对数据仓库建设方法学也一无所知。数据仓库项目经理应该如何做,才能让用户相信在一个数据仓库项目中使用一种方法学是必要的呢?2.一家银行为它的业务数据库环境制订了非常严格的数据库管理标准。这些DBA强调,必须要像设计和管理OLTP环境一样管理这个数据仓库环境。数据仓库经理怎样做,才能使这些DBA认识到这个标准不适...
阅读全文
摘要:团队问题1.企业IT部门一个非常聪明、工作努力的人极想从他喜爱的供应商那里获得一个β版本,用于数据仓库的实现。如果他不能得偿所愿,他要么离开,要么不再支持这个项目。项目经理应该如何来应付这种局面?2.管理层给项目经理一个这样的团队,其中的成员既无技能、也无热情,是其他项目经理不想留在自己团队中的人员。面对这种局面,项目经理应该如何应付?3.管理层希望数据仓库团队中的每个人都相处融洽,但是...
阅读全文
摘要:项目规划与进度安排1.企业高管层不了解数据仓库项目为什么会花费那么多的时间。他们认为目前的计划和工作量经过了夸张,所以他们要求能有更具体化的依据来支持评估的工作量。项目经理应该如何应付这种情况。2.IT团队曾多次错过完成期限而得到了较坏的名声。这次,项目经理向老板承诺了一个不切实际的最终期限。高管层也向项目经理明确宣布,他在公司的声誉及饭碗就取决于该时间表。项目经理该如何应对这种局面。3.项目经理...
阅读全文
摘要:用户问题1.企业内各业务部门的系统之间不是集成的,那些业务主管想让他们的数据进入数据仓库中,而且他们都想马上就能实现。而数据仓库经理只能逐个的满足他们的要求,要避免引起业务主管的愤怒,也要避免他们开发自己的数据仓库,数据仓库经理应该如何来处理这种局面?2.企业的IT部门雇佣了一名咨询人员来开发一个数据仓库,但是该企业的业务部门不支持这个项目。IT部门告诉这名咨询人员继续工作,即使业务部门计划赶他走...
阅读全文
摘要:组织与职员配备问题整理1.数据仓库经理认为自己的团队应该对CIO负责,但是,一个强有力的应用软件开发经理认为数据仓库的最终目的是要交付用户使用,数据仓库团队应该向他负责。数据仓库经理应该向谁负责?应该如何来应付这种局面?2.一家公司采用矩阵管理方式。项目经理手下没有专职的DBA,只能依靠DBA经理在需要时提供DBA。但是在需要DBA时,DBA未必总有空闲的。项目经理正要开始另一个项目,她应该作些什...
阅读全文
摘要:项目需求问题整理1.数据仓库项目已经开发了6个月的时间,在项目的开发过程中,数据仓库团队发现业务源系统正在被重写,业务系统在不断的变化,一个新的系统开发出来预计只有8个月的寿命。数据仓库团队应该如何应付这种情况?2.源系统和数据仓库系统同期建设。但是源系统在不断的变化中,而且源系统的开发团队没有将变化告知数据仓库团队,数据仓库团队在测试过程中出现故障才发现这些变化。这种没有告知有可能是故意的。数据...
阅读全文
摘要:数据仓库成本论证与预算1.企业有“禁止解雇”政策,管理层对工作效率的提高和成本的节约不是很关心。项目经理该如何对数据仓库及其相关工具的成本进行论证?2.企业高级管理层成立了一个委员会,希望委员会能论证用于数据仓库及其工具的任何支出都是合理的。但是委员会只能从软收益来论证,企业该如何来处理这种情况?3.大型零售企业的信息总监认为本企业需要一个数据仓库,但是企业的财务总监对建立...
阅读全文
摘要:项目管理问题整理1.企业经历过两次失败的数据仓库建设,现在是第三次,人们普遍认为这次也将会失败。项目经理应该作些什么来消除人们对数据仓库的消极看法?2.企业的业务系统方,即OLTP方的工作人员对数据仓库方不配合,比如对数据仓库的源数据申请置之不理。项目经理应该如何来应付这种情况?3.企业的管理层变动较频繁,支持数据仓库的企业领导可能会离开,面对这种情况,项目经理应该如何应付?4.企业雇佣一家咨询公...
阅读全文
摘要:本部分内容整理于Sid Adelman的著作Impossible Data Warehouse Situations。其中的问题都是从业人员在工作中经历的实际问题。这些问题同样也可以作为数据仓库项目经理的面试问题。这些问题很多没有固定的答案,不同的人会有不同的想法。重要的是在看到这些问题时能有一些自己的想法。1.项目管理2.项目需求3.成本论证与预算4.组织与职员配备5.用户问题6.团队问题7.项...
阅读全文
摘要:Describe the architecture options for implementing real-time ETL.简述在架构实时ETL时的可以选择的架构部件。答:在建立数据仓库时,ETL通常都采用批处理的方式,一般来说是每天的夜间进行跑批。随着数据仓库技术的逐步成熟,企业对数据仓库的时间延迟有了更高的要求,也就出现了目前常说的实时ETL(Real-Time ETL)。实时ETL是数...
阅读全文