摘要:
一、概述 1.什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 前边已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编 阅读全文
摘要:
一、入门概念 1.1.什么是Hive Hive是有Facebook开源,用于解决海量数据结构化日志的数据统计,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。其本质是将HQL转化成为MR程序。 1)Hive处理的数据存储在HDFS上 2)Hive分析数 阅读全文
摘要:
1. 大数据 大数据是指无法在一定时间范围内用常规工具进行捕捉、管理和处理的数据集合,需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 主要解决海量数据的存储和分析计算问题。大数据的特点为(4V):Volume大量、Velocity高速、Variet 阅读全文
摘要:
知识结构图: kettle是一款开源的ETL(extract抽取、transform转换、load加载)工具,纯java编写,可以在Windows、Linux、Unix上运行,绿色无需安装,图形化界面拖拽操作,数据抽取高效稳定。 在公司中对公司数据库直接进行改动是大忌,所以需要将数据拷贝一份,ETL 阅读全文
摘要:
在实训开始的第一天,公司老师简单了解了我们的java基础,并向我们介绍了在公司的一些代码习惯和一些java知识。 在实际项目中,企业内流行两种MVC开源框架,SSM及SSH框架。其中MVC即model(模型)-视图(view)-控制器(controller),将业务逻辑聚集到一个部件里,在改进和个性 阅读全文
摘要:
12306这个系统,核心要解决的问题是网上售票。涉及到2个角色使用该系统:用户、铁道部。用户的核心诉求是查询余票、购票;铁道部的核心诉求是售票。购票和售票其实是一个场景,对用户来说是购票,对铁道部来说是售票。因此,我们要设计一个在线的网站系统,解决用户的查询余票、购票,以及铁道部的售票这3个核心诉求 阅读全文
摘要:
上面这两个图表不是饿了么的数据,是第三方分析整个外卖市场的数据图。左边的图表是从2011年开始,整个O2O市场以及外卖的份额逐年增加。2013年和2014年的时候发生了比较大的飞跃,饿了么也是在这个时间段订单量开始猛增。右边的图表是用户注重外卖平台的因素分布。 从图中可以看到,用户很在意配送速度,在 阅读全文
摘要:
在传统的观念里,美团似乎一直被认为是家提供吃喝玩乐的团购平台。但其实,从深入电影、外卖等领域起,美团就早已不再是一家团购公司了,打开今天的美团APP:电影、外卖、机票、酒店、上门、甚至周边游等多重垂直业务均被囊括其中。 2015年年底,美团与大众点评宣布合并,合并后新美大的年活跃用户量达到1.7亿, 阅读全文
摘要:
唯品会每年最大力度的促销活动在4月19日,就是419(For One Night),意在告诉唯品会用户只有这一晚有这么大的折扣力度(本文中用“大促”就指代419) 。唯品会是一个闪购网站,用户来得越早,越能买到又便宜又好的东西,所以在大促的一开始,会涌入大量用户,形成系统流量峰值。 本文总结了唯品会 阅读全文
摘要:
初期架构选型 在2010年10月真正开始动手做知乎这个产品时,包含李申申在内,最初只有两位工程师;到2010年12月份上线时,工程师是四个。 知乎的主力开发语言是Python。因为Python简单且强大,能够快速上手,开发效率高,而且社区活跃,团队成员也比较喜欢。 知乎使用的是Tornado框架。因 阅读全文