2018 年 9月随笔档案 - alunbar

Apache Pulsar——企业级消息订阅系统介绍

摘要：Apache Pulsar是一款由雅虎开发的类似于Kafka的企业级消息订阅系统，在2016将其开源，由Apach基金会孵化，现在已经成长为Apache基金会的顶级项目。Pulsar在雅虎内部已经运行了三年，服务于众多的应用，主要有雅虎邮箱、雅虎财务系统、雅虎运动、Flickr、Gemini广告平台阅读全文

posted @ 2018-09-29 23:53 alunbar 阅读(3642) 评论(0) 推荐(1) 编辑

一起学Hadoop——实现两张表之间的连接操作

摘要：恢复内容开始之前我们都是学习使用MapReduce处理一张表的数据（一个文件可视为一张表，hive和关系型数据库Mysql、Oracle等都是将数据存储在文件中）。但是我们经常会遇到处理多张表的场景，不同的数据存储在不同的文件中，因此Hadoop也提供了类似传统关系型数据库的join操作。Hado 阅读全文

posted @ 2018-09-22 12:06 alunbar 阅读(2020) 评论(0) 推荐(0) 编辑

一起学Hadoop——文件的上传、分发与打包

摘要：如果我们想把文件上传到Hadoop集群中，使用put命令即可。下面的语句是将本地文件上传到hadoop集群的/目录下。 hadoop fs -put fruit.txt / 下面介绍通过脚本将文件分发到Hadoop集群的方法。因为Hadoop本身就带有文件自动分发的功能，我们只需在启动hadoop作阅读全文

posted @ 2018-09-13 23:27 alunbar 阅读(3615) 评论(0) 推荐(0) 编辑

机器学习100天——数据预处理(第一天)

摘要：有个叫Avik Jain的老外在github上发起了一个100天学习机器学习的项目，每天花一个小时学习机器学习，学习内容由浅入深。今天是第一天，内容是如何进行数据预处理。该教程的编程语言是Python。数据预处理分为6步：第一步：导入NumPy和Pandas库。NumPy和Pandas是每次都要阅读全文

posted @ 2018-09-12 23:23 alunbar 阅读(1915) 评论(1) 推荐(0) 编辑

一起学Hadoop——二次排序算法的实现

摘要：二次排序，从字面上可以理解为在对key排序的基础上对key所对应的值value排序，也叫辅助排序。一般情况下，MapReduce框架只对key排序，而不对key所对应的值排序，因此value的排序经常是不固定的。但是我们经常会遇到同时对key和value排序的需求，例如Hadoop权威指南中的求一年阅读全文

posted @ 2018-09-11 23:34 alunbar 阅读(1945) 评论(0) 推荐(0) 编辑

一起学Hadoop——TotalOrderPartitioner类实现全局排序

摘要：Hadoop排序，从大的范围来说有两种排序，一种是按照key排序，一种是按照value排序。如果按照value排序，只需在map函数中将key和value对调，然后在reduce函数中在对调回去。从小范围来说排序又分成部分排序，全局排序，辅助排序(二次排序)等。本文介绍如何在Hadoop中实现全局排阅读全文

posted @ 2018-09-05 22:52 alunbar 阅读(2170) 评论(1) 推荐(0) 编辑

一起学Hadoop——使用自定义Partition实现hadoop部分排序

摘要：排序在很多业务场景都要用到，今天本文介绍如何借助于自定义Partition类实现hadoop部分排序。本文还是使用java和python实现排序代码。 1、部分排序。部分排序就是在每个文件中都是有序的，和其他文件没有关系，其实很多业务场景就需要到部分排序，而不需要全局排序。例如，有个水果电商网站，阅读全文

posted @ 2018-09-02 16:49 alunbar 阅读(1287) 评论(0) 推荐(0) 编辑

alunbar

09 2018 档案

公告

搜索

常用链接

我的标签

积分与排名

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论