摘要: 一、基本概念介绍Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,但具有自己独特的设计。这个独特的设计是什么样的呢?首先让我们看几个基本的消息系统术语:Kafka将消息以topic为单位进行归纳。将向Kafka topic发布消息的程序成为producers.将预订t 阅读全文
posted @ 2017-07-13 13:55 无尽的缥缈 阅读(232) 评论(0) 推荐(0) 编辑
摘要: Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区 阅读全文
posted @ 2017-07-13 10:06 无尽的缥缈 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失 阅读全文
posted @ 2017-05-17 17:55 无尽的缥缈 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 转化分析是我讲的最多的领域。五六年前我讲的时候,大家不是很在乎,因为那时候流量不是事儿。今天,大家似乎都开始意识到,地上钻个孔就能喷出油的日子似乎离我们越来越远,如果不学会压榨流量的价值,盈利也会离我们越来越远。 一旦涉及到转化优化分析要采用什么方法,大家一定会异口同声道:转化漏斗!但我们真的做起来 阅读全文
posted @ 2017-05-11 11:49 无尽的缥缈 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 一名数据人如果连埋点和指标模棱两可,则根基不稳,随口一反问都可能成为定时炸弹,坍塌整个分析过程。如果你认为埋点只是开发的问题,数据人是拿现成的数据来写sql、完成分析,未来路可能会越走越窄。 我的理解,数据分析师,可以根据埋点的质量来决定怎么使用埋点,在什么情况下用什么埋点数据会更贴近事实,很自信地 阅读全文
posted @ 2017-05-11 10:57 无尽的缥缈 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 最近数据字典这个词经常跳出来,挑动着笔者的神经,搞了很多年的取数,报表、经分直至大数据,每每都会搞数据字典,但每每都难说成功,我们的数据字典都经历了三生三世啊,为什么还未成功? 第一代数据字典 首先,其往往零碎的散落在每个开发人员的设计文档中,或者长眠在文档服务器中,鲜有人去动它,找到一个简单的字段 阅读全文
posted @ 2017-05-10 17:43 无尽的缥缈 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 从单一维度到体系化 从单一维度到体系化的思考,是做数据分析必须做出的转变!对于数据分析你需要有体系化的数据框架! 我们在考虑问题的时候都会遵循一个思路,即从宏观到微观,从全局到局部,数据分析也不例外。数据分析在产品运营中的地位在这里也无需多说,做数据分析一定要建立在对产品数据体系详细了解的基础上的, 阅读全文
posted @ 2017-05-10 10:21 无尽的缥缈 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 笔者有幸从04年就开始从事大规模数据计算的相关工作,08年作为Greenplum 早期员工加入Greenplum团队(当时的工牌是“005”,哈哈),记得当时看了一眼Greenplum的架构(嗯,就是现在大家耳熟能详的那个好多个X86框框的图),就义无反顾地加入了,转眼之间,已经到了第8个年头。 在 阅读全文
posted @ 2017-04-28 13:42 无尽的缥缈 阅读(14926) 评论(1) 推荐(4) 编辑
摘要: 来自:http://tech.meituan.com/mysql-index.html MySQL凭借着出色的性能、低廉的成本、丰富的资源,已经成为绝大多数互联网公司的首选关系型数据库。虽然性能出色,但所谓“好马配好鞍”,如何能够更好的使用它,已经成为开发工程师的必修课,我们经常会从职位描述上看到诸 阅读全文
posted @ 2017-04-28 10:09 无尽的缥缈 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。 《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。 第一部分架构和设计,将主要着眼于日志收 阅读全文
posted @ 2017-04-27 18:55 无尽的缥缈 阅读(409) 评论(0) 推荐(0) 编辑