10 2015 档案

摘要:今天被问到列转行的问题,竟然没有回答上来,回想自己也是数据开发人员,平时的积累真是不到位,下面总结一下列转行。假设咱们有一个学生得分数据表:student_scoreCREATE TABLE student_scores( user_name character varying(30) NOT N... 阅读全文
posted @ 2015-10-31 14:28 李秋 阅读(813) 评论(0) 推荐(0) 编辑
摘要:简单方法:处理过程分为三个步骤:1、从数据库查询一条状态为为用的记录(不同的数据库写法会不一样)select*fromtable1wherestate='未用'limit12、将数据状态更新为已用,如果更新成功(影响记录数为1表示成功)则表示获取数据成功,否则这条数据已经被其他服务器或线程所抢用。u... 阅读全文
posted @ 2015-10-19 00:18 李秋 阅读(1310) 评论(0) 推荐(0) 编辑
摘要:前言:最近做数据同步,需要从PostgreSql获取数据,发现一旦数据比较多,那么读取的速度非常慢,并且内存占用特别多&GC不掉。代码样例:为了方便讲解,下面写了事例代码,从b2c_order获取数据,这个数据表6G左右。package com.synchro;import java.sql.*;/... 阅读全文
posted @ 2015-10-16 22:32 李秋 阅读(4820) 评论(0) 推荐(1) 编辑
摘要:简介很久之前就想写这篇文章了,主要是介绍一下我做数据同步的过程中遇到的一些有意思的内容,和提升效率的过程。当前在数据处理的过程中,数据同步如同血液一般充满全过程,如图:数据同步开源产品对比:DataX,是淘宝的开源项目,可惜不支持PostgresqlSqoop,Apache开源项目,同步过程中字段需... 阅读全文
posted @ 2015-10-15 16:34 李秋 阅读(6245) 评论(2) 推荐(7) 编辑
摘要:前言:最近发现hivesql的执行速度特别慢,前面我们已经说明了left和union的优化,下面咱们分析一下增加或者减少reduce的数量来提升hsql的速度。参考:http://www.cnblogs.com/liqiu/p/4873238.html分析:select s.id,o.order_i... 阅读全文
posted @ 2015-10-14 17:25 李秋 阅读(12977) 评论(1) 推荐(1) 编辑
摘要:相信在Etl的过程中不可避免的实用union all来拼装数据,那么这就涉及到是否并行处理的问题了。在hive中是否适用并行map,可以通过参数来设定:set hive.exec.parallel=true; 那么还是实用上一篇博客的数据,链接:http://www.cnblogs.com/liqi... 阅读全文
posted @ 2015-10-12 23:55 李秋 阅读(2583) 评论(0) 推荐(0) 编辑
摘要:一、前言公司实用Hadoop构建数据仓库,期间不可避免的实用HiveSql,在Etl过程中,速度成了避无可避的问题。本人有过几个数据表关联跑1个小时的经历,你可能觉得无所谓,可是多次Etl就要多个小时,非常浪费时间,所以HiveSql优化不可避免。注:本文只是从sql层面介绍一下日常需要注意的点,不... 阅读全文
posted @ 2015-10-12 23:19 李秋 阅读(15539) 评论(0) 推荐(1) 编辑
摘要:一、前言 当前大数据概念特别流行,其中根据数据做决策,根据数据做分析已经成为每个公司必备的能力。 二、数据抽取 随之组建数据技术团队也顺理成章的事情,数据团队从业务数据库抽取数据到自己的分析数据库,这个过程称之为:数据抽取,原因如下: 三、自然演化体系结构 随着需求的不断增加,对抽取的要求越来越多, 阅读全文
posted @ 2015-10-11 18:43 李秋 阅读(2303) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示