代码改变世界

随笔档案-2013年05月

hadhoop安装

2013-05-29 10:31 by 很大很老实, 749 阅读, 收藏,
摘要: 由于工作需要,安装了hadhoop,这里简单写一下步骤。首先,我是在vmware esxi 4.1上安装的。建立了一个虚拟机,40G硬盘,6G内存。安装ubuntu12.4的desktop。首先安装linux,界面如下,这里不多说了。随后,下载jdk1.6和ant1.9,以及eclipse开发环境。这里参考了几个文档:1)如何打开ubuntu的terminal:http://www.cnblogs.com/CoolPigs/archive/2012/01/17/2324816.html2)ftp的配置:http://blog.csdn.net/nation_chen/article/detai 阅读全文

PDI的steps:(10:table input)

2013-05-26 21:34 by 很大很老实, 311 阅读, 收藏,
摘要: id:TableInput分类:输入描述:通过connection和sql,从数据库里读取信息。OptionsOptionDescriptionStep nameName of the step;the name has to be unique in a single transformationConnectionThe database connection from which to read dataSQLThe SQL statement used to read information from the database connection. You can also clic 阅读全文

Pentaho Data Integration 4 Cookbook(1)

2013-05-26 11:12 by 很大很老实, 345 阅读, 收藏,
摘要: 本书覆盖的内容:1.如何在kettle中与数据库一起工作。描述在不同的场景下,如何建立和共享数据库连接,如何载入表,以及创建动态的sql语句。2.文件的读操作和写操作。本章可不是简单的介绍文件的读写操作,还包括一些细节处理。比如,如何操作非结构化的文件,如何操作主/从文件,如何操作excel文件的多个sheet等。3.操作xml文件。本章描述如何对xml文件进行,读,写,校验。4.文件管理 本章描述如何对批量的文件和目录进行,copy,move等操作。5.looking for data:描述如何使用不同的方法在数据库,文本文件,web service中查找信息。6.了解Data Flows: 阅读全文

PDI的steps:(8:Avro input)

2013-05-26 10:17 by 很大很老实, 213 阅读, 收藏,
摘要: 种类:输入id:AvroInput描述:该功能还在开发中。 http://wiki.pentaho.com/display/EAI/Avro+Input 阅读全文

Junk dimensions

2013-05-25 21:19 by 很大很老实, 273 阅读, 收藏,
摘要: 今天学习仓库,了解到有这么一类维度定义:Junk dimensions。于是查找一些资料,根据这个资料学习了一把。http://www.kimballgroup.com/2009/06/03/design-tip-113-creating-using-and-maintaining-junk-dimensions/ 阅读全文

Expert Cube Development with Microsoft SQL Server 2008 Analysis Services(3) 第一章

2013-05-25 20:40 by 很大很老实, 243 阅读, 收藏,
摘要: 第一章:设计一个用来提供分析服务的数据仓库本章主要是介绍,如何设计一个用来提供分析服务的数据仓库。有无数本书,介绍过数据仓库理论,维度建模等。本书不讨论这些。本章主要是介绍数据仓库设计的各个方面,有些主题,诸如:Analysis Services cube and dimension design,将在后续章节仔细介绍,有些主题,在本书之外,就不多介绍。1.源数据库a)The OLTP 数据库 一般情况下,在客户需要根据自己的数据进行分析,展示和报表生成时,一个bi解决方案就出现了。这些数据可能以成千上万行,甚至是几百万行的量 存在数据库里,供业务使用。这类数据库,就是oltp。可能是cr.. 阅读全文

PDI的steps:(8:Automatic Documentation Output)

2013-05-25 18:53 by 很大很老实, 262 阅读, 收藏,
摘要: 分类:Outputid:AutoDoc描述:这个step,是为一个或者多个转换或者job提供描述性的文档。这个step呢,可以作为一种手段,自动化的产生文档,用来描述转换或者job的目标;或者用来供大家掌握转换或者job的变化。产生的文档,如下:这里需要注意的是:只支持:Only types 'Transformation' and 'Job' are supported。因此,需要用值映射,对文件扩展名进行转换。 阅读全文

PDI的steps:(7:Append streams)

2013-05-25 18:11 by 很大很老实, 210 阅读, 收藏,
摘要: 种类:flowid:append描述:这个step,从2个step读取数据,不过,只处理第二个step的数据(在第一个step完成以后)。 一般情况下,这2个step的数据行的格式是一模一样的:相同的长度,相同的字段类型,相同的索引等。Important: If you don't care about the order in which the output rows occur, you can use any step to create a union of 2 or more data streams.OptionsOptionDescriptionStep nameNam 阅读全文

Expert Cube Development with Microsoft SQL Server 2008 Analysis Services(1)

2013-05-24 15:40 by 很大很老实, 278 阅读, 收藏,
摘要: 本书构建在sql 2008基础上。本书主要包括以下内容:第一章,展示如何建立一个数据集市,作为分析服务的数据源。第二章,介绍如何在bi开发环境里简单的建立维库和cube,就是:dimensions and cubes.第三章:discusses more complex dimension design problems such as slowly changing dimensions and ragged hierarchies. slowly changing dimensions:渐变维度;见:http://msdn.microsoft.com/zh-cn/library/ms141 阅读全文

Expert Cube Development with Microsoft SQL Server 2008 Analysis Services(2)度量值和度量值组

2013-05-24 15:19 by 很大很老实, 641 阅读, 收藏,
摘要: 度量值表示包含可以聚合的可计量数据(通常是数值)的列。度量值通常映射到事实数据表中的列。还可以使用“度量值表达式”,基于由多维表达式修改的事实数据表中的列来定义度量值。度量值表达式支持对度量值的值设置权重;例如,可以用货币换算按汇率来设置销售额度量值的权重。维度表中的属性列可以用于定义度量值,但是这些度量值通常在聚合行为方面具有半累加性或非累加性。有关半累加性行为的详细信息,请参阅定义半累加性行为。还可以使用多维表达式 (MDX) 将度量值定义为“计算成员”,从而为基于多维数据集中其他度量值的度量值提供计算值。计算成员会增加 Analysis Services 中多维数据集的灵活性,并提高其分 阅读全文

PDI的steps:(6:Analytic Query)

2013-05-24 13:48 by 很大很老实, 392 阅读, 收藏,
摘要: DescriptionThis step allows you to peek forward and backwards across rows. Examples of common use cases are:Calculate the "time between orders" by ordering rows by order date, and LAGing 1 row back to get previous order time.Calculate the "duration" of a web page view by LEADing 阅读全文

PDI的steps:(5:Add XML)

2013-05-24 12:47 by 很大很老实, 273 阅读, 收藏,
摘要: 种类:转换;id:AddXML描述:Encode several fields into an XML fragmentThe XML column step allows you to encode the content of a number of fields in a row in XML. This XML is added to the row in the form of a String field.这个step,允许你把一行里的几个字段组合成一个xml格式的内容,并作为一个string字段存储到列里。在这里编辑字段。Content TabOptionDescriptionS 阅读全文

PDI的steps:(5:Add value fields changing sequence)

2013-05-23 22:14 by 很大很老实, 368 阅读, 收藏,
摘要: 种类:转换;id:FieldsChangeSequence。描述:Add sequence depending of fields value change. Each time value of at least one field change, PDI will reset sequence.。 阅读全文

PDI的steps:(4:Add sequence)

2013-05-23 21:34 by 很大很老实, 487 阅读, 收藏,
摘要: 种类:转换;id:Sequence;描述:从sequence中获取下一个值。所属类:addsequence.AddSequenceMeta用来在stream中增加一个sequence,这个sequence,可以来自数据库,也可以是kettle自己生成的。Examples:Start at = 1, increment by = 1, max value = 3This will produce: 1, 2, 3, 1, 2, 3, 1, 2...Start at = 0, increment by = -1, max value = -2This will produce: 0, -1, -2 阅读全文

PDI的steps:(3:Add constants )

2013-05-20 19:33 by 很大很老实, 215 阅读, 收藏,
摘要: 名称:Add constants类型:转换;id:Constant描述:在输入行中增加1个或者多个常量。所属类:org.pentaho.di.trans.steps.constant.ConstantMetaOptionsOptionDescriptionStep nameName of the step.Note: This name has to be unique in a single transformation. Fields specify the name, type, and value in the form of a string. Then, specify the f 阅读全文

PDI的steps:(2:Add a checksum)

2013-05-20 19:13 by 很大很老实, 355 阅读, 收藏,
摘要: steps的连接:http://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+Steps名称:Add a checksumid:CheckSum种类:转换;描述:对input的每一行,加一个checksum列。所属类:org.pentaho.di.trans.steps.checksum.CheckSumMetaOptionDescriptionStep nameName of the step. Note: This name has to be unique in a single transformation.TypeThe 阅读全文

vmware vsphere 5虚拟数据中心构建指南(一)

2013-05-19 18:10 by 很大很老实, 736 阅读, 收藏,
摘要: 本书主要是以大众化的形式,介绍以下内容:第一章,专门为帮助读者理解vmware vsphere5 而写.后续章节解释这一技术和数据中心各要素(服务器,存储,网络)之间的关系,以及备份和服务持续性的各种方案.其中包括vsphere5的安装和操作管理.第八章介绍一个大型公司的案例.第一章:从服务器虚拟化到云计算本章目录如下:虚拟化:IT变革的核心 服务器虚拟化; 采用服务器虚拟化的要素; 虚拟化环境规范; 1)更改数据中心模型; 从一堆小型物理服务器模式,变为一台高性能独立服务器模式;这时候,存储成为支柱,必须提供高性能和安全性。同时,网络带宽也需要保证。 2)虚拟机 ... 阅读全文

PDI的step:(1:abort)

2013-05-18 11:19 by 很大很老实, 371 阅读, 收藏,
摘要: 本系列介绍PDI的step。这里介绍第一个:Abort。name:Abort;类型:Flow。id:Abort。描述:终止一个转换。所属类:org.pentaho.di.trans.steps.abortMeta.这个step,允许你在发现有输入的时候,终止转换。这主要用在错误处理等场景。配置信息:OptionDescriptionStep nameName of the step.Note: This name has to be unique in a single transformation.Abort thresholdThe threshold of number of rows 阅读全文

kettle---用户手册(7:变量)

2013-05-18 11:07 by 很大很老实, 2522 阅读, 收藏,
摘要: 我觉得这一章是比较重要的,在kettle中定义变量。变量可以用在PDI的任何地方,包括转换和job。通过set Variable在转换或者job中设置变量,也可以设置在kettle.properties文件中,不过,kettle.properties文件要放在以下位置:$HOME/.kettle (Unix/Linux/OSX)C:\Documents and Settings\<username>\.kettle\ (Windows)C:\Users\<username>\.kettle\ (Windows Vista)我们可以通过使用“Get Variable”st 阅读全文

kettle---用户手册(3:创建hops)

2013-05-18 10:27 by 很大很老实, 909 阅读, 收藏,
摘要: hop是用来吧transformation和job连接起来的。数据流动的方向在hop里是通过箭头表示的。hop可以设置为有效或者无效。下面介绍主要是以下内容:Transformation HopsJob HopsCreating a HopSplitting a HopLoopsMixing Rows-Trap DetectorTransformation Hop ColorsTransformation Hops:如果在转换中,hop是无效的,那么,在数据流方向上,其后的单元将得不到任何数据。从而导致结果是无效的。比如,在无效hop的下一个转换,单击get fields,讲啥都得不到。job 阅读全文

kettle---用户手册(3:创建一个数据库链接)

2013-05-17 20:48 by 很大很老实, 511 阅读, 收藏,
摘要: 本章包括以下内容:Creating a New Database ConnectionEditing a ConnectionDuplicating a ConnectionCopying to a ClipboardDeleting a ConnectionExecuting SQL Commands on a ConnectionClearing the Database Cache OptionQuotingDatabase Usage GridConfiguring JNDI ConnectionsUnsupported Databases第一步:创建一个数据库连接,图形操作界面如下: 阅读全文

kettle---用户手册(2:创建一个转换或者job)

2013-05-17 18:16 by 很大很老实, 439 阅读, 收藏,
摘要: 这个类容之前的博客里也有,就不綴述。 阅读全文

kettle---用户手册(1:介绍spoon)

2013-05-17 17:52 by 很大很老实, 617 阅读, 收藏,
摘要: 继续我们这一块的工作。pan:pan是一个数据引擎,从不同的数据源读取,转换和写入数据。kitchen:是一个程序,用来执行job。Transformations and Jobs可以听过xml文件或者数据库里的信息来描述自身的行为。下表列出转换中的一些定义:TransformationDescriptionValueValues are part of a row and can contain any type of data: strings, floating point numbers, unlimited precision BigNumbers, integers, dates 阅读全文

pentaho DI--- Tutorial (spoon)

2013-05-16 20:16 by 很大很老实, 812 阅读, 收藏,
摘要: Pentaho Data Integration (PDI, also called Kettle),是pentaho的etl工具.虽然etl工具一般都用在数据仓库环境中,可是,PDI还是可以做以下事情:1)在数据库或应用系统间迁移数据.2)把数据导成为检系统3)大数据的批量倒入数据库。4)系统整合。5)数据清洗。PDI的使用非常简单,每一步基本上都可以听过图形化的工具来完成,而不需要写代码。从这个意义上说,PDI是面向元数据的。PDI既可以作为一个单独工具使用,也可以作为pentaho的整个软件包的一部分使用。作为一个单独的工具,PDI支持各种数据源的输入和输出,包括:文本文件;数据表;各种 阅读全文

pentaho DI---Get Started (spoon)

2013-05-16 18:57 by 很大很老实, 262 阅读, 收藏,
摘要: 对任何人来说,学习一个新的工具,都是有点畏难情绪的.而pentaho的ETL工具,是我作为重点学习的工具,那就克服困难把.今天学习英文资料的:get started.连接是:http://wiki.pentaho.com/display/EAI/Getting+Started.首先,给出连接:http://infocenter.pentaho.com/help/index.jsp?topic=%2Fgetting_started_with_pdi%2Ftopic_introduction.html.介绍最新版本的etl工具.其次,提供了一些flash demo,不过,没声音.再给出一些有用的连 阅读全文

Apache Tomcat 7学习笔记(一) 介绍tomcat7

2013-05-05 15:30 by 很大很老实, 416 阅读, 收藏,
摘要: 说实话,我不是一个专研技术的料子,总喜欢浮在上面,很难深入下去,java刚出来的时候,就感兴趣过,可是,一直没有怎么学习。现在,自己折腾一个小破公司,客户需要用tomcat,虽然主要是技术人员在弄,我想,我多少也要掌握些,就跟着学习学习这本书吧。这本书是apress在2011年出版的,讲述的是tomcat7.主要包括以下内容:第一章:介绍tomcat7. tomcat服务器 tomcat7的manager application tomcat是一个容器,用来运行jsp和servlet,目前tomcat7支持servlet api3.0;manager是和tomcat server一起安装的,. 阅读全文