2015 年 10月随笔档案 - 李秋

数据人员Sql必会——行转列

摘要：今天被问到列转行的问题，竟然没有回答上来，回想自己也是数据开发人员，平时的积累真是不到位，下面总结一下列转行。假设咱们有一个学生得分数据表：student_scoreCREATE TABLE student_scores( user_name character varying(30) NOT N... 阅读全文

posted @ 2015-10-31 14:28 李秋阅读(813) 评论(0) 推荐(0) 编辑

如何使用数据库实现多台服务器竞争资源的问题

摘要：简单方法：处理过程分为三个步骤：1、从数据库查询一条状态为为用的记录(不同的数据库写法会不一样)select*fromtable1wherestate='未用'limit12、将数据状态更新为已用，如果更新成功（影响记录数为1表示成功）则表示获取数据成功，否则这条数据已经被其他服务器或线程所抢用。u... 阅读全文

posted @ 2015-10-19 00:18 李秋阅读(1310) 评论(0) 推荐(0) 编辑

Jdbc如何从PostgreSql读取海量数据？PostgreSql源代码分析纪录

摘要：前言：最近做数据同步，需要从PostgreSql获取数据，发现一旦数据比较多，那么读取的速度非常慢，并且内存占用特别多&GC不掉。代码样例：为了方便讲解，下面写了事例代码，从b2c_order获取数据，这个数据表6G左右。package com.synchro;import java.sql.*;/... 阅读全文

posted @ 2015-10-16 22:32 李秋阅读(4820) 评论(0) 推荐(1) 编辑

数据同步那些事儿（优化过程分享）

摘要：简介很久之前就想写这篇文章了，主要是介绍一下我做数据同步的过程中遇到的一些有意思的内容，和提升效率的过程。当前在数据处理的过程中，数据同步如同血液一般充满全过程，如图：数据同步开源产品对比：DataX，是淘宝的开源项目，可惜不支持PostgresqlSqoop，Apache开源项目，同步过程中字段需... 阅读全文

posted @ 2015-10-15 16:34 李秋阅读(6245) 评论(2) 推荐(7) 编辑

Etl之HiveSql调优(设置map reduce 的数量)

摘要：前言：最近发现hivesql的执行速度特别慢，前面我们已经说明了left和union的优化，下面咱们分析一下增加或者减少reduce的数量来提升hsql的速度。参考：http://www.cnblogs.com/liqiu/p/4873238.html分析：select s.id,o.order_i... 阅读全文

posted @ 2015-10-14 17:25 李秋阅读(12977) 评论(1) 推荐(1) 编辑

Etl之HiveSql调优(union all)

摘要：相信在Etl的过程中不可避免的实用union all来拼装数据，那么这就涉及到是否并行处理的问题了。在hive中是否适用并行map，可以通过参数来设定：set hive.exec.parallel=true; 那么还是实用上一篇博客的数据，链接：http://www.cnblogs.com/liqi... 阅读全文

posted @ 2015-10-12 23:55 李秋阅读(2583) 评论(0) 推荐(0) 编辑

Etl之HiveSql调优(left join where的位置)

摘要：一、前言公司实用Hadoop构建数据仓库，期间不可避免的实用HiveSql，在Etl过程中，速度成了避无可避的问题。本人有过几个数据表关联跑1个小时的经历，你可能觉得无所谓，可是多次Etl就要多个小时，非常浪费时间，所以HiveSql优化不可避免。注：本文只是从sql层面介绍一下日常需要注意的点，不... 阅读全文

posted @ 2015-10-12 23:19 李秋阅读(15539) 评论(0) 推荐(1) 编辑

数据集市层——论为什么随着技术分析的深入，决策数据报表问题越来越多

摘要：一、前言当前大数据概念特别流行，其中根据数据做决策，根据数据做分析已经成为每个公司必备的能力。二、数据抽取随之组建数据技术团队也顺理成章的事情，数据团队从业务数据库抽取数据到自己的分析数据库，这个过程称之为：数据抽取，原因如下：三、自然演化体系结构随着需求的不断增加，对抽取的要求越来越多，阅读全文

posted @ 2015-10-11 18:43 李秋阅读(2303) 评论(0) 推荐(0) 编辑

10 2015 档案

随笔分类 (443)

随笔档案 (372)

阅读排行榜