大数据 - 随笔分类 - 李秋

去哪儿网玩乐事业部-数据模式演进

摘要：简介一转眼在去哪儿网玩乐事业部工作快4年了，经历了数据团队的组建和发展，回顾一下整体过程，经历了很多坎坷，普通而不简单。下面是大事记 2014年（系统搭建）：开发报表平台、接入HADOOP、搭建调度系统 2015年（数据集市）：搭建数据集市、开发数据同步工具 2016年（数据应用）：系统定价、多维阅读全文

posted @ 2018-02-01 18:39 李秋阅读(1981) 评论(1) 推荐(8)

《数据仓库工具箱》——建模四步骤

摘要：Kimball建模方法的精髓，就是简单、使用，建模这四步骤是它的核心部分。用术语表达是：始终一致的四步设计维度模型，分别如下：一、选择业务过程业务过程是由组织完成的一系列微观活动，例如：完成下单、完成支付、发放代金券、上线产品等等。充分理解它们，有助于辨别组织中的不同业务过程，它一般具有这些特性阅读全文

posted @ 2017-07-23 10:54 李秋阅读(4291) 评论(2) 推荐(0)

python + hadoop （案例）

摘要：python如何链接hadoop，并且使用hadoop的资源，这篇文章介绍了一个简单的案例！一、python的map/reduce代码首先认为大家已经对haoop已经有了很多的了解，那么需要建立mapper和reducer，分别代码如下： 1、mapper.py 2、reducer.py 建立了阅读全文

posted @ 2017-01-02 19:51 李秋阅读(2329) 评论(0) 推荐(0)

elasticsearch + hive环境搭建

摘要：一、环境介绍： elasticsearch：2.3.1 hive：0.12 二、环境搭建 2.1 首先获取elasticsearc-hadoop的jar包链接地址：http://jcenter.bintray.com/org/elasticsearch/elasticsearch-hadoop/2 阅读全文

posted @ 2016-07-20 10:18 李秋阅读(5557) 评论(0) 推荐(0)

is running beyond physical memory limits. Current usage: 2.0 GB of 2 GB physical memory used; 2.6 GB of 40 GB virtual memory used

摘要：昨天使用hadoop跑五一的数据，发现报错：发现是内存溢出了，遇到这种问题首先要判断是map阶段溢出还是reduce阶段溢出，然后分别设置其内存的大小，比如：因为默认值都是：1024M，也就是一个G，如果不够就会溢出！阅读全文

posted @ 2016-05-03 11:04 李秋阅读(1545) 评论(0) 推荐(0)

Schema Workbench 开发mdx和模式文件

摘要：一、前言安装了saiku之后，每次修改schema文件，非常耗时，每次都要经历若干步骤：修改xml、上传、重启才能生效，并且非常不利于学习和理解MDX和模式文件，踌躇之际，发现了这个工具，十分小巧方便！saiku安装过程可参考上一篇博客：http://www.cnblogs.com/liqiu/p 阅读全文

posted @ 2016-02-20 09:34 李秋阅读(8014) 评论(5) 推荐(2)

pentaho saiku 安装全过程

摘要：公司希望也开发一套多维分析系统，以解决运营/产品无休止的需求和技术人力不足的矛盾！一、开发选型：一、BIRT：易用性差，所以没再使用二、JasperReport+ireport：文档收费，不支持ETL工具三、Pentaho：在中国比较普及，文档多，报表是其中的一部分，比如数据同步和ETL也都阅读全文

posted @ 2016-02-06 10:19 李秋阅读(12963) 评论(11) 推荐(1)

Jdbc如何从PostgreSql读取海量数据？PostgreSql源代码分析纪录

摘要：前言：最近做数据同步，需要从PostgreSql获取数据，发现一旦数据比较多，那么读取的速度非常慢，并且内存占用特别多&GC不掉。代码样例：为了方便讲解，下面写了事例代码，从b2c_order获取数据，这个数据表6G左右。package com.synchro;import java.sql.*;/... 阅读全文

posted @ 2015-10-16 22:32 李秋阅读(4927) 评论(0) 推荐(1)

数据同步那些事儿（优化过程分享）

摘要：简介很久之前就想写这篇文章了，主要是介绍一下我做数据同步的过程中遇到的一些有意思的内容，和提升效率的过程。当前在数据处理的过程中，数据同步如同血液一般充满全过程，如图：数据同步开源产品对比：DataX，是淘宝的开源项目，可惜不支持PostgresqlSqoop，Apache开源项目，同步过程中字段需... 阅读全文

posted @ 2015-10-15 16:34 李秋阅读(6335) 评论(2) 推荐(7)

Etl之HiveSql调优(设置map reduce 的数量)

摘要：前言：最近发现hivesql的执行速度特别慢，前面我们已经说明了left和union的优化，下面咱们分析一下增加或者减少reduce的数量来提升hsql的速度。参考：http://www.cnblogs.com/liqiu/p/4873238.html分析：select s.id,o.order_i... 阅读全文

posted @ 2015-10-14 17:25 李秋阅读(13076) 评论(1) 推荐(1)

Etl之HiveSql调优(union all)

摘要：相信在Etl的过程中不可避免的实用union all来拼装数据，那么这就涉及到是否并行处理的问题了。在hive中是否适用并行map，可以通过参数来设定：set hive.exec.parallel=true; 那么还是实用上一篇博客的数据，链接：http://www.cnblogs.com/liqi... 阅读全文

posted @ 2015-10-12 23:55 李秋阅读(2612) 评论(0) 推荐(0)

Etl之HiveSql调优(left join where的位置)

摘要：一、前言公司实用Hadoop构建数据仓库，期间不可避免的实用HiveSql，在Etl过程中，速度成了避无可避的问题。本人有过几个数据表关联跑1个小时的经历，你可能觉得无所谓，可是多次Etl就要多个小时，非常浪费时间，所以HiveSql优化不可避免。注：本文只是从sql层面介绍一下日常需要注意的点，不... 阅读全文

posted @ 2015-10-12 23:19 李秋阅读(15569) 评论(0) 推荐(1)

数据集市层——论为什么随着技术分析的深入，决策数据报表问题越来越多

摘要：一、前言当前大数据概念特别流行，其中根据数据做决策，根据数据做分析已经成为每个公司必备的能力。二、数据抽取随之组建数据技术团队也顺理成章的事情，数据团队从业务数据库抽取数据到自己的分析数据库，这个过程称之为：数据抽取，原因如下：三、自然演化体系结构随着需求的不断增加，对抽取的要求越来越多，阅读全文

posted @ 2015-10-11 18:43 李秋阅读(2353) 评论(0) 推荐(0)

Spark和hadoop的关系

摘要：1、 Spark VSHadoop有哪些异同点？ Hadoop:分布式批处理计算，强调批处理，常用于数据挖掘和数据分析。 Spark:是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还... 阅读全文

posted @ 2015-09-22 13:59 李秋阅读(7216) 评论(0) 推荐(0)

Hadoop学习笔记（老版本，YARN之前），MapReduce任务Namenode DataNode Jobtracker Tasktracker之间的关系

摘要：一、基本概念在MapReduce中，一个准备提交执行的应用程序称为“作业（job）”，而从一个作业划分出的运行于各个计算节点的工作单元称为“任务（task）”。此外，Hadoop提供的分布式文件系统（HDFS）主要负责各个节点的数据存储，并实现了高吞吐率的数据读写。在分布式存储和分布式计算方... 阅读全文

posted @ 2015-07-26 13:56 李秋阅读(1004) 评论(0) 推荐(0)

hive行转列

摘要：一、问题hive如何将a 1,2,3b 4,7c 5转化成为：a 1a 2a 3b 4b 7c 5二、原始数据cat row_column.txta 1,2,3b 4,... 阅读全文

posted @ 2015-03-28 15:29 李秋阅读(2970) 评论(0) 推荐(0)

hive列转行

摘要：一、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为：a b 1,2,3c d ... 阅读全文

posted @ 2015-03-28 14:56 李秋阅读(858) 评论(0) 推荐(0)

数据仓库英文缩写攻略

摘要：背书随着大数据的到来，经常听到相关的词汇，维度、指标、BI、PV、UV等等，今天整理了这些词汇。 DW DW是Data Warehouse的缩写，即数据仓库。 DW要区别于普通数据库，数据仓库用于支持决策，面向分析型数据处理；而普通数据库主要服务于软件/网站，对于一致性/事物要求较高。 BI BI 阅读全文

posted @ 2015-01-23 10:17 李秋阅读(3845) 评论(0) 推荐(1)

hive在命令行消除进度等错误信息

摘要：大家在使用shell脚本调用hive命令的时候，发现hive的中间过程竟然打印到错误输出流里面，这样在查看错误日志的时候，需要过滤这些没用的信息，那么可以使用如下的配置参数。set hive.session.silent=true; （默认是false）例如：hive> select from_or... 阅读全文

posted @ 2015-01-09 11:37 李秋阅读(2519) 评论(1) 推荐(1)

hive 字段名称显示

摘要：首先查看一个sql1、首先存在一个数据表tmpCREATE TABLE tmp( platform string, channel string, chan_value string, uid string, host int, logtime string, bd_so... 阅读全文

posted @ 2014-12-09 21:12 李秋阅读(4617) 评论(0) 推荐(0)

随笔分类 - 大数据