摘要: MapReduce是大数据分布式计算框架,是大数据技术的一个核心。它主要有两个函数,Map() 和 Reduce()。直接使用MapReduce的这两个函数编程有些困难,所以Facebook推出了Hive。Hive支持使用 SQL 语法来进行大数据计算,比如说你可以写个 Select 语句进行数据查询,然后 Hive 会把 SQL 语句转化成 MapReduce 的计算程序。这样,熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了。 但与此同时,Hive也把大数据分布式计算框架的核心知识点隐藏了。本文通过一个例子来解析一个Hive例子,将其还原到MapReduce函数,来理解MapReduce的核心思想与方法。 阅读全文
posted @ 2020-12-13 23:48 susy 阅读(1619) 评论(0) 推荐(0) 编辑