tneduts - 博客园

dotnet use regex two samples

摘要： One sample is used to replace double quote from words which encapsulated by csvwriter ,you know csv writer will take care of the double quote and com... 阅读全文

posted @ 2014-12-04 18:07 tneduts 阅读(208) 评论(0) 推荐(0) 编辑

Excel scientific notation issue

摘要： This is a known issue, you can find more in internet. Excel will treat text(can display with number) more than 11 numbers, it will convert to scientific notation display. It is not an issue now, ... 阅读全文

posted @ 2014-12-02 16:44 tneduts 阅读(346) 评论(0) 推荐(0) 编辑

Sql-oracle and sqlserver differences

摘要： 1.string contact operatorSqlserver use + or contact(sqlserver 2012)In oracle, you can also use contact, but you can not used + to contact string, you ... 阅读全文

posted @ 2014-11-26 07:54 tneduts 阅读(767) 评论(0) 推荐(0) 编辑

SQL-一道特殊的字符串分解题目

摘要：本题不是一道直接的字符串拆解，应用场景如下，表中有一个字段，是表示事件受影响的国家集合，使用逗号进行分隔，不幸的是，居然发现有些国家本身就带有逗号，这样在规范化的时候，如何准确地找到这些国家呢？以下的代码是有一定限制的。但基本上够用。下面的代码使用到了分析函数lag和lead还有cte,sql... 阅读全文

posted @ 2014-11-22 09:48 tneduts 阅读(959) 评论(0) 推荐(0) 编辑

Oracle 性能优化之一二

摘要：本人使用oracle时间不多，但是在项目中积累了一些经验教训，记录于此，以方便自己和他人解决类似的问题。 1.temp space超出限制的问题问题场景：在复杂的ETL query中，有时候一张fact表逻辑复杂，来自多张表的join，我习惯写成CTE的方式，但CTE是放在内存中的，所以比较快捷，但如果数据量过大，则会spool到临时空间中，如果db server的配置不可观，则极有... 阅读全文

posted @ 2014-11-21 07:59 tneduts 阅读(219) 评论(2) 推荐(0) 编辑

要一直知道什么是最重要的

摘要：工作生活中，有一个基本原则，就是要事为先。要清楚对你来说，什么才是最重要的。是身体的健康，还是学习工作上的进步。你愿意为工作努力得伤害身体吗？一开始对自己来说，也许找不到明确的答案，但是要培养这个意识，每天工作开始的时候，对自己说，哪些项目是今天最重要的，需要及时完成，汇报给领导的，哪... 阅读全文

posted @ 2014-11-21 07:41 tneduts 阅读(204) 评论(1) 推荐(0) 编辑

c# 当引用类型作为方法的参数

摘要： c#（java）中，参数传递都是传递的参数本身的值，对于值类型，传递的是值本身。对于引用类型，定义引用类型变量的时候，一个是在栈中的变量，存储的是一个指针，指向在堆中分配的对象实例的地址，当然，如果对象没有实例化，给null值的时候例外。传递引用类型变量的时候，传递的也是值，但它的值是内存地址，... 阅读全文

posted @ 2014-11-05 07:53 tneduts 阅读(3572) 评论(7) 推荐(0) 编辑

BI测试工具之跨数据库数据对比,支持oracle,sqlserver

摘要：应用场景：本周在进行SIT，我帮助仅有的一个测试妹妹对部分表进行数据质量验证，第一步需要做的就是比对source与stage表的table definition 与数据内容的一致性。本项目使用的是oracle作为DW，source是oracle,sqlserver和xls.没有权限建立databa... 阅读全文

posted @ 2014-10-29 22:11 tneduts 阅读(2449) 评论(1) 推荐(1) 编辑

c#分页读取GB文本文件

摘要： use c# to read gb size txt file by pagesize 阅读全文

posted @ 2014-10-26 12:17 tneduts 阅读(1811) 评论(6) 推荐(1) 编辑

Merge compare columns when null

摘要： Key words: merge compare columnswhen we contact merge sql in ETL,When we update some columns we should compare the value change or not.We always write... 阅读全文

posted @ 2014-10-22 12:42 tneduts 阅读(371) 评论(0) 推荐(0) 编辑

Oracle常用plsql

摘要： String aggr http://www.oracle-base.com/articles/misc/string-aggregation-techniques.php SELECT 'SELECT ' || COLUMNLISTS ||' FROM ' || TBL.TABLE_NAME || ';'AS SELECTSQL, 'SELECT COUNT(*) AS CNT FR... 阅读全文

posted @ 2014-10-16 10:44 tneduts 阅读(219) 评论(2) 推荐(0) 编辑

quick sort java version

摘要： import java.util.Random;public class test { public static void main(String[] args) { int[] arr= generatenumbers(10); show(arr,"before sort:"); quic... 阅读全文

posted @ 2014-10-09 17:26 tneduts 阅读(264) 评论(1) 推荐(0) 编辑

基于元数据的ETL系统

摘要：从努力到选择从实现到设计从部分到整体以下是我对DW design的一些想法下次使用C#来实现一下ETL中Source 的信息数据提供形式：DB(ORACLE SQLSERVER VERTICA ...) FLAT FILE (EXCEL , CSV, TXT...) 源系统 db:host... 阅读全文

posted @ 2014-09-15 06:38 tneduts 阅读(1944) 评论(0) 推荐(0) 编辑

Centos 6.5(64bit)上安装Vertica single node

摘要：在Win8上使用虚拟机Virtualbox安装Centos6.5,想在上面安装vertica.以下记录了我在安装的过程中遇到的问题与一些解决方案。1.安装Centos的时候遇到了一个恼人的问题，即安装成功后第一次启动时会需要你配置一些用户信息，时区信息和Kdump信息。我当时选择安装的类型是soft... 阅读全文

posted @ 2014-07-06 18:30 tneduts 阅读(812) 评论(0) 推荐(0) 编辑

Hadoop,Vertica环境搭建

摘要：本打算使用mapr的虚拟机在里面进行开发,使用eclipse进行调试,它的问题是,有时候服务不能完全起来,如jobtracker和tasktracker,cldb没有起来,重启服务有可能解决.但另外一个问题是我使用eclipse和0.20.2的插件,无法连接DFS location,无法调试hado... 阅读全文

posted @ 2014-06-15 22:09 tneduts 阅读(1176) 评论(0) 推荐(0) 编辑

c# 参数传递

摘要： c#类型有值类型与引用类型.无论哪种类型的变量,作为方法的参数进行传递时,默认是以"值传递"方式来传递的.传递给方法的形参,在执行时都会新创建一个局部变量,然后接受实参的值,而这个值可以是一个基本类型,也可以是一个引用.所以值类型的形参,作用域仅在函数内部,执行完就消失了. 引用类型的形参,方法内部的局部变量指向堆上的一个对象,调用完之后,局部变量也会消失,但是如果修改这个引用的值,会保留在... 阅读全文

posted @ 2014-06-05 10:03 tneduts 阅读(150) 评论(0) 推荐(0) 编辑

SSIS hang with unhandle exception

摘要：如果你的packages在执行的过程中有没有被捕获到的异常,则sqldumper会跳出来获取这些异常信息输出,存在下面的目录中:C:\Program Files\Microsoft SQL Server\110\Shared\ErrorDumps文件有以.tmp和mdmp结尾.SQLDUMPER_E... 阅读全文

posted @ 2014-05-20 07:26 tneduts 阅读(797) 评论(0) 推荐(0) 编辑

MAPR 开发环境搭建过程记录

摘要：我下载了MAPR 官方提供的virtualbox 和 vmware版本的sandbox进行试用.开始试用了一会vmware版的,因为不太熟悉vmware的操作,而且vmplayer经常没有反应,后来改用了virtualbox版.因为sandbox是单机版的,所以必须把网络设置设为host only,... 阅读全文

posted @ 2014-05-03 18:49 tneduts 阅读(703) 评论(0) 推荐(0) 编辑

Vertica 项目常用代码

摘要： 1.查看目录下面有多少文件数ls -l |grep "^-"|wc -l 思路很明显了,ls后通过grep进行过滤判断是文件还是文件夹,如果是判断文件夹,可以使用ls -l |grep "^d"|wc -l2.copy命令连接数据库并分批导入文件到数据库中下面是我的示例代码,可以分批把数据导入到数... 阅读全文

posted @ 2014-04-25 18:28 tneduts 阅读(1796) 评论(1) 推荐(0) 编辑

数据按时间拆开分批处理示例

摘要：我现在的问题是有一个大的事实表,已经有数十亿条数据,过来的临时表需要merge进去. 临时表的大小也不确定,可能上十亿也可能只有几百几千万而已.如果直接让这两个表merge起来,则需要很大的内存来进行处理.所以我就想着把数据进行按时间拆分的处理,然后merge进去,拆分的条件是如果临时表的数据量大于... 阅读全文

posted @ 2014-04-23 16:43 tneduts 阅读(589) 评论(0) 推荐(0) 编辑

ssis trainning

摘要： 1.防止包打开后hang住，可以使用delay validation=false. 2.2008R2 configuration 起作用的优先级？一是des ign time.二是运行的时候指定的文件 2012的parameter 则是相反。 3.注意SSIS包的32位与64位跑的区别？agentjob 默认是64位的去跑，如果你是包需要在32位下面跑，有选项可以勾选。你可以使用不同folder下面的dtsexec去跑你的job.第三方的driver也许需要设置allow in process? 4.load flat file 可以在source 组件上去掉某些列，但是不能在conne.. 阅读全文

posted @ 2014-03-31 07:39 tneduts 阅读(284) 评论(0) 推荐(0) 编辑

使用SSIS包调度开发的包

摘要：在项目中,开发完自己的packages之后,需要使用agentjob之类的服务来调度自己的package,当然我们也可以使用一个package来调度这些,下面就是我的一个简单的尝试.没有设计得像Agentjob那样复杂,agentjob中的每一个job都包含schedule,然后每一个job有若干个step,每一个step之间还是有依赖关系.我的设计很简单,就是使用一个csv文件保存三列值,一列是order,一列是batfilename,第三列是isenabled. 分别表示执行顺序,batch file的名字,(其实也可以设计成包的路径)和是否执行. 示例如下: 我暂且就叫它MainFra. 阅读全文

posted @ 2014-03-28 07:17 tneduts 阅读(729) 评论(1) 推荐(0) 编辑

TSQL点滴

摘要： Q1.什么是bookmark lookup?非聚集索引中叶结点存储的是index keyword 和 rowid(heap table) 或 clusterindex key. 如果查询使用了非聚集索引,但是select中包含了非聚集索引中没有的列,则会使用bookmark lookup ,即返回到聚集索引或page中去找原始数据.如果数据量很大,这样会造成很大的性能损耗,所以建议改成覆盖索引或其他方式. 阅读全文

posted @ 2014-03-28 06:59 tneduts 阅读(160) 评论(0) 推荐(0) 编辑

SSIS WITH VERTICA的注意事项总结

摘要：项目中使用到SSIS访问vertica，以下是我使用中总结的一些注意事项：1.vertica对约束的处理方式与之前的DBMS是不同的。以上的截图说明，在使用ado.net provider连接vertica进行数据加载的时候，ssis 返回的信息是不准确的。这不是provider的问题，使用odbc时也遇到过类似的问题。a.在SSIS中图显示全部绿色，表示执行成功，但是到vertica中查询，却没有发现一条记录。后仔细检查发现，source中的数据违反了vertica中的一个not null 约束，数据没有进去，但是没有报错误提示。 Ssis path中显示343条记录，但是实际上只有341条阅读全文

posted @ 2014-03-22 09:55 tneduts 阅读(979) 评论(2) 推荐(0) 编辑

Excel demo in SSIS

摘要：需求如下，把异常数据从sqlserver数据库中取出来，然后导入到xls中去，然后再发邮件给用户，把xls作为附件发送。需要的示例数据表： /*create table abnormaldata(rowid bigint , rowname nvarchar(20) ,rowvalue nvarchar(100));insert into abnormaldata(rowid,rowname,rowvalue) values(1,'studentname','studentA');insert into abnormaldata(rowid,rowname,ro 阅读全文

posted @ 2014-03-16 15:55 tneduts 阅读(400) 评论(0) 推荐(0) 编辑

Mathout

摘要： 1. 用Maven搭建Mahout的开发环境，并完成PPT 26页，最简单的例子。要求有过程说明和截图。 2. 用案例的数据集，基于Mahout，任选一种算法，对任意一个女性用户进行协同过滤推荐，并解释推荐结果是否合理，解释过程可以写成一文档说明。 3. 接第2题，增加过滤条件，排除男性，只保留对女性用户的推荐评分，然后进行推荐，并解释推荐结果，是否合理。要求有代码，运行过程抓图，代码的文档说... 阅读全文

posted @ 2014-03-16 11:43 tneduts 阅读(631) 评论(0) 推荐(0) 编辑

Mathout 安装部署

摘要：安装Mahout，并运行测试样例，抓图测试实验过程证明已部署成功Mahout 下载地址:http://apache.dataguru.cn/mahout/0.9/mahout-distribution-0.9.tar.gzsuvim /etc/profileSet the environment variable:export MAHOUT_HOME=/home/hadoop/mahout0.9export MAHOUT_CONF_DIR=/home/hadoop/mahout0.9/confexport PATH=$PATH:$MAHOUT_HOME/conf:$MAHOUT_HOME/b 阅读全文

posted @ 2014-02-08 14:08 tneduts 阅读(870) 评论(0) 推荐(0) 编辑

Flume

摘要： Step1.download tar packages from apache website.Step2.extract the file and set the environment.Vim /etc/profileExport FLUME_HOME=/home/hadoop/flume1.4Export PATH=$PATH:$FLUME_HOME/binSource /etc/profileStep3:Start a agent to put dir to avro.flume-ng agent -n agent1 -f confs/avrotest.confflume-ng avr 阅读全文

posted @ 2014-01-30 08:40 tneduts 阅读(380) 评论(0) 推荐(0) 编辑

SSIS with vertica

摘要：使用ODBC进行连接,因为SSIS中没有直接的ODBC connection,所以使用ADO.NET的连接器.九分钟才跑了四百来条数据。这个图反应了SSIS的数据流速度还是可以的，但是瓶颈就在ODBC destination 里。还有一种情况是，你看到SSIS容器中的组件（控制流和数据流）都已经变绿色了，在Progress info中也没有发现任何的错误提示信息，但是去Vertica中查看，表中却没有任何一种记录。这是odbc连接没有接到正确的反馈。我遇到的情况是，Vertica中对应表中的一个列是not null,但是我这边传递的可能是NULL值，我不知道odbc的配置中是如何处理这种情况的阅读全文

posted @ 2014-01-30 08:30 tneduts 阅读(825) 评论(0) 推荐(0) 编辑

Neo4j 高可用集群安装

摘要：安装neo4j高可用集群，抓图安装过程 http://www.ibm.com/developerworks/cn/java/j-lo-neo4j/ Step1.下载neo4j商业版并解压,复制为neo4j01,neo4j02,neo4j03Step2.修改neo4j.properties 文件和neo4j-server.properties文件,按照neo4j manual上面的要求修改即可.The following settings should be configured for each Neo4j installation.Neo4j instance #1—~/neo4j-01co 阅读全文

posted @ 2014-01-15 20:52 tneduts 阅读(1128) 评论(0) 推荐(0) 编辑

Hive remote install mode (mysql) step by step

摘要： Prerequisite:Hadoop cluster is avalable;Mysql installed on namenode;Step1: download the latest hive tar packages and extract .Download:http://apache.dataguru.cn/hive/hive-0.12.0/tar xvf tar xvf hive-0.12.0.tar.gzStep2: set the environment for hive.# su to root add hive homeVim /etc/profileexport HIV 阅读全文

posted @ 2013-12-31 05:58 tneduts 阅读(1010) 评论(5) 推荐(0) 编辑

Hbase step by step 完全分布式安装

摘要： Step1: download and extract the packages: http://mirror.bit.edu.cn/apache/hbase/stable/ Step2: set the environment variable(not must, just easy to sta 阅读全文

posted @ 2013-12-29 11:43 tneduts 阅读(745) 评论(6) 推荐(0) 编辑

MSBI BigData demo—sqoop import

摘要： --sp_readerrorlog 读取错误的信息记录 exec sys.sp_readerrorlog 0, 1, 'listening'查看端口号首先hadoop环境要配置完毕,并检验可以正常启动并使用.在hadoop的namenode上安装sqoop,并设置相关的环境变量.如HADOOP_HOME也是需要先配置好的.否则提示找不到hadoop，Error: /usr/lib/hadoop does not exist!我的实验环境是apache hadoop 1.0.4 ,java 1.7, sqoop 1.4.在本机上安装了三台centos的linux系统作为小集群测试阅读全文

posted @ 2013-12-28 12:54 tneduts 阅读(967) 评论(0) 推荐(0) 编辑

SSIS XML source demo

摘要：以下是一个使用xml作为source的SSIS package示例：自动生成的xsd.把两个结点merge join成一条记录。示例XML如下：white snowliterial123456lovestory123457View Code 阅读全文

posted @ 2013-12-28 10:43 tneduts 阅读(342) 评论(0) 推荐(0) 编辑

Cassandra 分布式集群

摘要： 1 实施Cassandra集群，并验证集群功能正常，抓图实验过程 2 为什么说对于布隆过滤器有"确定某个元素是否在某个集合中的代价和总的元素数目无关"？误判率和元素数目有关吗？为什么？ First, make sure that the nodes in the cluster all have the same name and the same keyspace definitions so that the new node can accept data.Edit the config file on the second node to indicate that 阅读全文

posted @ 2013-12-26 17:16 tneduts 阅读(1914) 评论(0) 推荐(0) 编辑

BI Project Managerment

摘要： Design doc is the meta data of the code. The project management plan is crucial to your project since it is the basis on which the project will be measured. It can be used to aid in communication between stakeholders and to define the content and timing of project reviews. Here are some elements tha 阅读全文

posted @ 2013-12-26 13:55 tneduts 阅读(396) 评论(0) 推荐(0) 编辑

再学TSQL基础--单表查询

摘要：本内容是我学习tsql2008的阅读笔记什么是关系模型?若对列创建唯一约束,背后中的物理机制也是创建了一个唯一索引.SQL语句的逻辑解析顺序是FROMWHEREGROUP BYHAVINGSELECTOVERDISTINCTTOPORDER BY如果SELECT语句中涉及到分组，则后面的select order having的操作对象将是分组。所有聚合函数都会忽略NULL值，只有count(*)除外。带有order by子句的查询被ANSI称之为游标。表表达式不能处理游标。TOP 是TSQL所特有的，用来限制返回的行数或百分比。开窗函数使用OVER子句提供窗口作为上下文，对窗口中的一组值进行操阅读全文

posted @ 2013-12-26 09:42 tneduts 阅读(244) 评论(0) 推荐(0) 编辑

pig 介绍与pig版 hello world

摘要：前两天使用pig做ETL，粗浅的看了一下，没有系统地学习，感觉pig还是值得学习的，故又重新看programming pig.以下是看的第一章的笔记：What is pig?Pig provides an engine for executing data flows in parallel on Hadoop. It includes alanguage, Pig Latin, for expressing these data flows. Pig Latin includes operators formany of the traditional data operations (jo 阅读全文

posted @ 2013-12-09 14:29 tneduts 阅读(425) 评论(0) 推荐(0) 编辑

xml in hadoop ETL with pig summary

摘要：项目中需要把source为xml的文件通过flume放置到hdfs,然后通过MR导入到vertica中去,我之前做过简单的尝试,是通过pig的piggybank的xmlloader然后Regex_extract来提取结点属性做的,但问题是我之前只取了一层结点的属性,没有把不同层次结点关联起来,这有三四层,结构比较复杂,我需要重新整理思路.这种方式很可能走不通,因为piggybank里面regex_extract的正则和传统的正则还是有些异同的.常常会因为正则写的不合适经常返回空元组.我是一个c# guy,又不会用纯java写MR,所以就进一步搜索了google.查找相关资料.1.把XML先转成阅读全文

posted @ 2013-12-09 07:18 tneduts 阅读(549) 评论(0) 推荐(0) 编辑

Mongodb--gridfs与分片实验

摘要： 1.放置一个大文件到gridfs,查看fs.chunks和fs.files的情况.Step1.开启一台mongod服务../mongod --dbpath dbs/master 登录mongo查看数据库中fs.files和fs.chunks的情况: Db.fs.chunks.find()后刷屏: 2. 实施分片，验证分片成功，抓图实验过程首先.配置数据库目录,config,no... 阅读全文

posted @ 2013-12-07 22:17 tneduts 阅读(1470) 评论(0) 推荐(0) 编辑

导航

公告