09 2018 档案

摘要:Apache Pulsar是一款由雅虎开发的类似于Kafka的企业级消息订阅系统,在2016将其开源,由Apach基金会孵化,现在已经成长为Apache基金会的顶级项目。Pulsar在雅虎内部已经运行了三年,服务于众多的应用,主要有雅虎邮箱、雅虎财务系统、雅虎运动、Flickr、Gemini广告平台 阅读全文
posted @ 2018-09-29 23:53 alunbar 阅读(3642) 评论(0) 推荐(1) 编辑
摘要:恢复内容开始 之前我们都是学习使用MapReduce处理一张表的数据(一个文件可视为一张表,hive和关系型数据库Mysql、Oracle等都是将数据存储在文件中)。但是我们经常会遇到处理多张表的场景,不同的数据存储在不同的文件中,因此Hadoop也提供了类似传统关系型数据库的join操作。Hado 阅读全文
posted @ 2018-09-22 12:06 alunbar 阅读(2020) 评论(0) 推荐(0) 编辑
摘要:如果我们想把文件上传到Hadoop集群中,使用put命令即可。下面的语句是将本地文件上传到hadoop集群的/目录下。 hadoop fs -put fruit.txt / 下面介绍通过脚本将文件分发到Hadoop集群的方法。因为Hadoop本身就带有文件自动分发的功能,我们只需在启动hadoop作 阅读全文
posted @ 2018-09-13 23:27 alunbar 阅读(3615) 评论(0) 推荐(0) 编辑
摘要:有个叫Avik Jain的老外在github上发起了一个100天学习机器学习的项目,每天花一个小时学习机器学习,学习内容由浅入深。今天是第一天,内容是如何进行数据预处理。该教程的编程语言是Python。 数据预处理分为6步: 第一步:导入NumPy和Pandas库。NumPy和Pandas是每次都要 阅读全文
posted @ 2018-09-12 23:23 alunbar 阅读(1915) 评论(1) 推荐(0) 编辑
摘要:二次排序,从字面上可以理解为在对key排序的基础上对key所对应的值value排序,也叫辅助排序。一般情况下,MapReduce框架只对key排序,而不对key所对应的值排序,因此value的排序经常是不固定的。但是我们经常会遇到同时对key和value排序的需求,例如Hadoop权威指南中的求一年 阅读全文
posted @ 2018-09-11 23:34 alunbar 阅读(1945) 评论(0) 推荐(0) 编辑
摘要:Hadoop排序,从大的范围来说有两种排序,一种是按照key排序,一种是按照value排序。如果按照value排序,只需在map函数中将key和value对调,然后在reduce函数中在对调回去。从小范围来说排序又分成部分排序,全局排序,辅助排序(二次排序)等。本文介绍如何在Hadoop中实现全局排 阅读全文
posted @ 2018-09-05 22:52 alunbar 阅读(2170) 评论(1) 推荐(0) 编辑
摘要:排序在很多业务场景都要用到,今天本文介绍如何借助于自定义Partition类实现hadoop部分排序。本文还是使用java和python实现排序代码。 1、部分排序。 部分排序就是在每个文件中都是有序的,和其他文件没有关系,其实很多业务场景就需要到部分排序,而不需要全局排序。例如,有个水果电商网站, 阅读全文
posted @ 2018-09-02 16:49 alunbar 阅读(1287) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示