随笔分类 -  大数据

hadoop hive hbase
摘要:简介 一转眼在去哪儿网玩乐事业部工作快4年了,经历了数据团队的组建和发展,回顾一下整体过程,经历了很多坎坷,普通而不简单。下面是大事记 2014年(系统搭建):开发报表平台、接入HADOOP、搭建调度系统 2015年(数据集市):搭建数据集市、开发数据同步工具 2016年(数据应用):系统定价、多维 阅读全文
posted @ 2018-02-01 18:39 李秋 阅读(1950) 评论(1) 推荐(8) 编辑
摘要:Kimball建模方法的精髓,就是简单、使用,建模这四步骤是它的核心部分。用术语表达是:始终一致的四步设计维度模型,分别如下: 一、选择业务过程 业务过程是由组织完成的一系列微观活动,例如:完成下单、完成支付、发放代金券、上线产品等等。充分理解它们,有助于辨别组织中的不同业务过程,它一般具有这些特性 阅读全文
posted @ 2017-07-23 10:54 李秋 阅读(4204) 评论(2) 推荐(0) 编辑
摘要:python如何链接hadoop,并且使用hadoop的资源,这篇文章介绍了一个简单的案例! 一、python的map/reduce代码 首先认为大家已经对haoop已经有了很多的了解,那么需要建立mapper和reducer,分别代码如下: 1、mapper.py 2、reducer.py 建立了 阅读全文
posted @ 2017-01-02 19:51 李秋 阅读(2284) 评论(0) 推荐(0) 编辑
摘要:一、环境介绍: elasticsearch:2.3.1 hive:0.12 二、环境搭建 2.1 首先获取elasticsearc-hadoop的jar包 链接地址:http://jcenter.bintray.com/org/elasticsearch/elasticsearch-hadoop/2 阅读全文
posted @ 2016-07-20 10:18 李秋 阅读(5530) 评论(0) 推荐(0) 编辑
摘要:昨天使用hadoop跑五一的数据,发现报错: 发现是内存溢出了,遇到这种问题首先要判断是map阶段溢出还是reduce阶段溢出,然后分别设置其内存的大小,比如: 因为默认值都是:1024M,也就是一个G,如果不够就会溢出! 阅读全文
posted @ 2016-05-03 11:04 李秋 阅读(1504) 评论(0) 推荐(0) 编辑
摘要:一、前言 安装了saiku之后,每次修改schema文件,非常耗时,每次都要经历若干步骤:修改xml、上传、重启才能生效,并且非常不利于学习和理解MDX和模式文件,踌躇之际,发现了这个工具,十分小巧方便!saiku安装过程可参考上一篇博客:http://www.cnblogs.com/liqiu/p 阅读全文
posted @ 2016-02-20 09:34 李秋 阅读(7918) 评论(5) 推荐(2) 编辑
摘要:公司希望也开发一套多维分析系统,以解决运营/产品无休止的需求和技术人力不足的矛盾! 一、开发选型: 一、BIRT:易用性差,所以没再使用 二、JasperReport+ireport:文档收费,不支持ETL工具 三、Pentaho:在中国比较普及,文档多,报表是其中的一部分,比如数据同步和ETL也都 阅读全文
posted @ 2016-02-06 10:19 李秋 阅读(12924) 评论(11) 推荐(1) 编辑
摘要:前言:最近做数据同步,需要从PostgreSql获取数据,发现一旦数据比较多,那么读取的速度非常慢,并且内存占用特别多&GC不掉。代码样例:为了方便讲解,下面写了事例代码,从b2c_order获取数据,这个数据表6G左右。package com.synchro;import java.sql.*;/... 阅读全文
posted @ 2015-10-16 22:32 李秋 阅读(4820) 评论(0) 推荐(1) 编辑
摘要:简介很久之前就想写这篇文章了,主要是介绍一下我做数据同步的过程中遇到的一些有意思的内容,和提升效率的过程。当前在数据处理的过程中,数据同步如同血液一般充满全过程,如图:数据同步开源产品对比:DataX,是淘宝的开源项目,可惜不支持PostgresqlSqoop,Apache开源项目,同步过程中字段需... 阅读全文
posted @ 2015-10-15 16:34 李秋 阅读(6245) 评论(2) 推荐(7) 编辑
摘要:前言:最近发现hivesql的执行速度特别慢,前面我们已经说明了left和union的优化,下面咱们分析一下增加或者减少reduce的数量来提升hsql的速度。参考:http://www.cnblogs.com/liqiu/p/4873238.html分析:select s.id,o.order_i... 阅读全文
posted @ 2015-10-14 17:25 李秋 阅读(12978) 评论(1) 推荐(1) 编辑
摘要:相信在Etl的过程中不可避免的实用union all来拼装数据,那么这就涉及到是否并行处理的问题了。在hive中是否适用并行map,可以通过参数来设定:set hive.exec.parallel=true; 那么还是实用上一篇博客的数据,链接:http://www.cnblogs.com/liqi... 阅读全文
posted @ 2015-10-12 23:55 李秋 阅读(2583) 评论(0) 推荐(0) 编辑
摘要:一、前言公司实用Hadoop构建数据仓库,期间不可避免的实用HiveSql,在Etl过程中,速度成了避无可避的问题。本人有过几个数据表关联跑1个小时的经历,你可能觉得无所谓,可是多次Etl就要多个小时,非常浪费时间,所以HiveSql优化不可避免。注:本文只是从sql层面介绍一下日常需要注意的点,不... 阅读全文
posted @ 2015-10-12 23:19 李秋 阅读(15539) 评论(0) 推荐(1) 编辑
摘要:一、前言 当前大数据概念特别流行,其中根据数据做决策,根据数据做分析已经成为每个公司必备的能力。 二、数据抽取 随之组建数据技术团队也顺理成章的事情,数据团队从业务数据库抽取数据到自己的分析数据库,这个过程称之为:数据抽取,原因如下: 三、自然演化体系结构 随着需求的不断增加,对抽取的要求越来越多, 阅读全文
posted @ 2015-10-11 18:43 李秋 阅读(2303) 评论(0) 推荐(0) 编辑
摘要:1、 Spark VSHadoop有哪些异同点? Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘和数据分析。 Spark:是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还... 阅读全文
posted @ 2015-09-22 13:59 李秋 阅读(7178) 评论(0) 推荐(0) 编辑
摘要:一、基本概念 在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出的运行于各个计算节点的工作单元称为“任务(task)”。此外,Hadoop提供的分布式文件系统(HDFS)主要负责各个节点的数据存储,并实现了高吞吐率的数据读写。 在分布式存储和分布式计算方... 阅读全文
posted @ 2015-07-26 13:56 李秋 阅读(973) 评论(0) 推荐(0) 编辑
摘要:一、问题hive如何将a 1,2,3b 4,7c 5转化成为:a 1a 2a 3b 4b 7c 5二、原始数据cat row_column.txta 1,2,3b 4,... 阅读全文
posted @ 2015-03-28 15:29 李秋 阅读(2917) 评论(0) 推荐(0) 编辑
摘要:一、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为:a b 1,2,3c d ... 阅读全文
posted @ 2015-03-28 14:56 李秋 阅读(844) 评论(0) 推荐(0) 编辑
摘要:背书 随着大数据的到来,经常听到相关的词汇,维度、指标、BI、PV、UV等等,今天整理了这些词汇。 DW DW是Data Warehouse的缩写,即数据仓库。 DW要区别于普通数据库,数据仓库用于支持决策,面向分析型数据处理;而普通数据库主要服务于软件/网站,对于一致性/事物要求较高。 BI BI 阅读全文
posted @ 2015-01-23 10:17 李秋 阅读(3676) 评论(0) 推荐(1) 编辑
摘要:大家在使用shell脚本调用hive命令的时候,发现hive的中间过程竟然打印到错误输出流里面,这样在查看错误日志的时候,需要过滤这些没用的信息,那么可以使用如下的配置参数。set hive.session.silent=true; (默认是false)例如:hive> select from_or... 阅读全文
posted @ 2015-01-09 11:37 李秋 阅读(2487) 评论(1) 推荐(1) 编辑
摘要:首先查看一个sql1、首先存在一个数据表tmpCREATE TABLE tmp( platform string, channel string, chan_value string, uid string, host int, logtime string, bd_so... 阅读全文
posted @ 2014-12-09 21:12 李秋 阅读(4596) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示