随笔分类 -  [401]Hadoop

大数据生态
摘要:add by zhj: 终于明白了什么是列式存储,什么是行式存储。这跟数据在存储介质中的存储结构有关,列式存储是指,一列中的数据在存储介质中是连续存储的;行式存储是指一行中的数据在存储介质中是连续存储的。简单的说,你可以把列式数据库认为是每一列都是一个表,这个表只有一列,如果只在该列进行条件查询,速 阅读全文
posted @ 2019-12-05 10:53 DarrenChan陈驰 阅读(346) 评论(0) 推荐(0) 编辑
摘要:需求: Order_0000001,Pdt_01,222.8Order_0000001,Pdt_05,25.8Order_0000002,Pdt_05,325.8Order_0000002,Pdt_03,522.8Order_0000002,Pdt_04,122.4Order_0000003,Pdt 阅读全文
posted @ 2017-04-27 11:21 DarrenChan陈驰 阅读(1109) 评论(0) 推荐(0) 编辑
摘要:需求: 利用mapReduce实现类似微博中查找共同粉丝的功能。如下: A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM: 阅读全文
posted @ 2017-04-23 22:46 DarrenChan陈驰 阅读(1149) 评论(1) 推荐(0) 编辑
摘要:需求: 利用MapReduce程序,实现SQL语句中的join关联查询。 订单数据表order: 商品信息表product: 假如数据量巨大,两表的数据是以文件的形式存储在HDFS中,需要用mapreduce程序来实现一下SQL查询运算: 分析: 通过将关联的条件作为map输出的key,将两表满足j 阅读全文
posted @ 2017-04-23 21:44 DarrenChan陈驰 阅读(928) 评论(0) 推荐(0) 编辑
摘要:在做Hadoop数据挖掘项目的时候,我们第一步是源数据的获取,即把相应的数据放置到HDFS中,以便Hadoop进行计算,手动将文件上传到HDFS中,未免太费时费力,所以我们可以采取像Flume一样的框架,或者采用Shell脚本进行文件的上传。下面主要提供Shell脚本的大致写法,仅供参考,可以根据不 阅读全文
posted @ 2017-04-19 08:16 DarrenChan陈驰 阅读(6748) 评论(0) 推荐(0) 编辑
摘要:大数据的浪潮风靡全球的时候,Spark火了。在国外 Yahoo!、Twitter、Intel、Amazon、Cloudera 等公司率先应用并推广 Spark 技术,在国内阿里巴巴、百度、淘宝、腾讯、网易、星环等公司敢为人先,并乐于分享。在随后的发展中,IBM、Hortonworks、微策略等公司纷 阅读全文
posted @ 2017-04-18 18:26 DarrenChan陈驰 阅读(977) 评论(0) 推荐(0) 编辑
摘要:这个项目是流量经营项目,通过Hadoop的离线数据项目。 运营商通过HTTP日志,分析用户的上网行为数据,进行行为轨迹的增强。 HTTP数据格式为: 流程: 系统架构: 技术选型: 这里只针对其中的一个功能进行说明: 其中规则库是人工填充的,实例库是采用机器学习自动生成的,形式都是<url,info 阅读全文
posted @ 2017-03-29 17:57 DarrenChan陈驰 阅读(7159) 评论(0) 推荐(0) 编辑
摘要:1. 前提 部署全分布式环境,我们肯定不能在一台服务器上了,这里我用了7台服务器,在VMware上开了7个虚拟机,如下图所示: 我基本配置了一晚上才搞定,第一次配置一般都有错,这时候不妨去到hadoop的logs文件夹下查看日志,如果实在找不出来,索性把所有hadoop文件删掉,重新安装。 hado 阅读全文
posted @ 2017-03-03 01:20 DarrenChan陈驰 阅读(576) 评论(2) 推荐(0) 编辑
摘要:传统的HDFS机制如下图所示: 也就是存在一个NameNode,一个SecondaryNameNode,然后若干个DataNode。这样的机制虽然元数据的可靠性得到了保证(靠edits,fsimage,meta.data等文件),但是服务的可用性并不高,因为一旦NameNode出现问题,那么整个系统 阅读全文
posted @ 2017-03-02 21:03 DarrenChan陈驰 阅读(2247) 评论(0) 推荐(0) 编辑
摘要:需求: 以上三个文件,用MapReduce进行处理,最终输出以下格式: hello c.txt-->2 b.txt-->2 a.txt-->3jerry c.txt-->1 b.txt-->3 a.txt-->1tom c.txt-->1 b.txt-->1 a.txt-->2 思考: 我们需要进行 阅读全文
posted @ 2017-02-28 15:22 DarrenChan陈驰 阅读(427) 评论(0) 推荐(0) 编辑
摘要:一个map task处理一个切片Split,切片是一个范围的数据,和blocksize大小没有必然关系。 1.每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到( 阅读全文
posted @ 2017-02-28 00:25 DarrenChan陈驰 阅读(1060) 评论(4) 推荐(0) 编辑
摘要:需求: 在实战(一)的基础 上,实现自定义分组机制。例如根据手机号的不同,分成不同的省份,然后在不同的reduce上面跑,最后生成的结果分别存在不同的文件中。 对流量原始日志进行流量统计,将不同省份的用户统计结果输出到不同文件。 思考: 需要自定义改造两个机制:1、改造分区的逻辑,自定义一个part 阅读全文
posted @ 2017-02-27 01:32 DarrenChan陈驰 阅读(817) 评论(0) 推荐(0) 编辑
摘要:需求: 基于上一道题,我想将结果按照总流量的大小由大到小输出。 思考: 默认mapreduce是对key字符串按照字母进行排序的,而我们想任意排序,只需要把key设成一个类,再对该类写一个compareTo(大于要比较对象返回1,等于返回0,小于返回-1)方法就可以了。 注:这里如果是实现java. 阅读全文
posted @ 2017-02-26 22:04 DarrenChan陈驰 阅读(1486) 评论(0) 推荐(1) 编辑
摘要:需求: 处理以下流量数据,第1列是手机号,第7列是上行流量,第8列是下行流量。将手机号一样的用户进行合并,上行流量汇总,下行流量也汇总,并相加求得总流量。 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.al 阅读全文
posted @ 2017-02-26 20:39 DarrenChan陈驰 阅读(756) 评论(0) 推荐(0) 编辑
摘要:YARN是资源管理调度的机制,之前一直以来和MapReduce机制合在一起,之后才分开。正是因为YARN机制单独独立出来,才使得Hadoop框架更加具有普适性。MapReduce可以处理海量离线数据,同样如果处理实时数据,换成Spark,Storm即可,不用重新部署集群,因为资源管理调度YARN是共 阅读全文
posted @ 2017-02-25 15:12 DarrenChan陈驰 阅读(1161) 评论(3) 推荐(0) 编辑
摘要:1. MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。2. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。 阅读全文
posted @ 2017-02-25 00:02 DarrenChan陈驰 阅读(1356) 评论(0) 推荐(0) 编辑
摘要:1. RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。 阅读全文
posted @ 2017-02-22 18:35 DarrenChan陈驰 阅读(615) 评论(0) 推荐(0) 编辑
摘要:HDFS的shell操作很简单,直接查看文档就可以,和Linux指令类似,下面简单总结一下HDFS的JAVA客户端编写。(HA集群的话把core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml都拷贝到工作空间) 如图建立工程,其中客户端放在h 阅读全文
posted @ 2017-02-21 14:44 DarrenChan陈驰 阅读(665) 评论(0) 推荐(0) 编辑
摘要:1. 准备Linux环境 提示:我用的系统是CentOS 6.4。 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 - 阅读全文
posted @ 2017-02-20 10:29 DarrenChan陈驰 阅读(2572) 评论(0) 推荐(0) 编辑
摘要:常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。 Google学术论文,这是众多分布式文件系统的起源 Google File Sy 阅读全文
posted @ 2017-02-19 16:02 DarrenChan陈驰 阅读(869) 评论(0) 推荐(0) 编辑

Live2D