2022 年 4月随笔档案 - 码码小菜鸟

分区实现

摘要：假设需求：假设现在数据量很大，数据从map端处理完以后，我们要把不同手机号码段的手机号放到不同的文件里面，比如以135开头的，给他放到一个文件里面，136开头的放到一起，137开头的放到一起等等等等；就在刚才的项目中，新建一个provincepartitioner类： package MR.pho 阅读全文

posted @ 2022-04-19 14:56 码码小菜鸟阅读(41) 评论(0) 推荐(0) 编辑

reduce累加实现

摘要：与map端的模式类似，map端要重写Mapper方法，reduce端也要重写Reduce方法，这里有一个泛型，我们先看参数类型分别对应输入keyin,valuein,keyout,valueout.。这里前两个参数：keyin，valueint就是map端处理以后的键值对。map端的逻辑我们已经阅读全文

posted @ 2022-04-18 11:26 码码小菜鸟阅读(358) 评论(0) 推荐(0) 编辑

PhoneBean实体类的封装和map输出键值对的设置

摘要：之前我们写好了bean类型。现在我们再看看这个需求中，map和reduce各自的流程。 Map阶段：字段切分以后保留如下字段：以第一行为例，就保留13726230503112 2481 24681 字段将数据封装到PhoneBean里面将手机号设置成keyout 将PhoneBean设置成va 阅读全文

posted @ 2022-04-08 17:10 码码小菜鸟阅读(61) 评论(0) 推荐(0) 编辑

自定义bean对象实现序列化接口

摘要：上一个word count的案例中，我们为了理解mapreduce的流程，写了上面的代码。现在我们要把一个实体类序列化。比如现在有这么一个文件，里面的数据格式是这样的：第一列是时间戳，第二列是手机号码，第三列是设备的物理地址，第四列是访问网站的ip地址，第五列是网站域名，第六列是数据包，下一列是接阅读全文

posted @ 2022-04-08 15:57 码码小菜鸟阅读(257) 评论(0) 推荐(0) 编辑

Windows环境中Hadoop配置

摘要：我们之前已经在Windows中安装好了Hadoop，并且配置了环境变量。如果要在本地上运行的，还需要这两个文件，可以去找一下，放到Hadoop的bin目录下面。这样我们写好的mr程序就可以直接在Windows上面运行了，不用再去打包上传等等。阅读全文

posted @ 2022-04-08 14:50 码码小菜鸟阅读(156) 评论(0) 推荐(0) 编辑

word count的reduce过程以及项目打包部署

摘要：map过程已经写完了，上面那个流程我们涉及到了泛型以及序列化，我们要知道每个参数代表的含义，这样有助于我们理解整个流程。下面我们开始reduce，这个过程我们要把map输出的键值对把key值相同的放在一起，具体的流程我们看代码： package MR.wc;import org.apache.ha 阅读全文

posted @ 2022-04-08 11:52 码码小菜鸟阅读(69) 评论(0) 推荐(0) 编辑

java实现wordCount的map

摘要：打开IDEA，File——new ——Project，新建一个项目我们已经安装好了maven，不用白不用这里不要选用骨架，Next。在写上Groupid，Next。写上项目名称，finish。ok。一个项目就建好了，他长这样：新建的项目要配置一下maven。毕竟我们马上就要用它。然后导入依阅读全文

posted @ 2022-04-07 23:06 码码小菜鸟阅读(128) 评论(0) 推荐(0) 编辑

MapReduce入门

摘要：先贴一战mr流程图，新手朋友不要看见这个图就头晕，我们后续会使用java API实现几个案例，帮助我们更好的理解各个环节，比如切片，文件读取，Map，combine，Reduce，shuffle等等。案例写完以后相信对mr流程会有一个比较深刻的理解。具体的太理论的东西没什么好讲的，我们这里比较偏重阅读全文

posted @ 2022-04-07 21:44 码码小菜鸟阅读(48) 评论(0) 推荐(0) 编辑

Windows环境安装Hadoop环境

摘要：1，下载Hadoop，解压 2，配置Hadoop环境变量右键此电脑——属性高级系统设置环境变量新建一个HADOOP_HOME 添加到path 3，cmd窗口查看安装情况：hadoop version 阅读全文

posted @ 2022-04-07 20:53 码码小菜鸟阅读(208) 评论(0) 推荐(0) 编辑

maven配置

摘要：现在Hadoop集群已经搭建好了，也了解了Hadoop操作的一些基本命令。现在我们要用java操作Hadoop。这里我们使用的ide是IDEA和maven。IDEA的话去官网下载一个，用激活码激活就ok。maven我用的是3.83版本，下载安装就行。注意配置一下环境变量。在配置文件里面修改一下本地仓阅读全文

posted @ 2022-04-07 20:33 码码小菜鸟阅读(32) 评论(0) 推荐(0) 编辑

hdfs常用命令

摘要：1，我们在第一个节点上创建一个文件：vim word.txt -hdfs dfs -put(原文件目录) （目标文件目录）这是一个上传文件的命令输入命令：hdfs dfs -put /opt/data/words.txt / 这个命令的意思就是我们要从linux上上传一个文件到hdfs，这个文件的阅读全文

posted @ 2022-04-07 16:42 码码小菜鸟阅读(1778) 评论(0) 推荐(0) 编辑

集群规划与部署

摘要：我们创建了三台虚拟机，不同的机器有不同的角色，我们需要做一个部署规划 hdfs系统分配：101是namenode，接收客户端请求，保存元数据，当然了，这台机器空闲资源的时候，也可以做一些计算存储，给他分配一个datanode的角色。102数据主要用来存储数据内容存储数据块，同时存储block的元数据阅读全文

posted @ 2022-04-07 16:16 码码小菜鸟阅读(134) 评论(0) 推荐(0) 编辑

ssh免密码登录

摘要：新建的三台虚拟机之间需要设置免密码登录注意：三台机器都要操作，如果使用xshell的童鞋就有福了，可以使用选项卡工具同时操作：阅读全文

posted @ 2022-04-06 16:17 码码小菜鸟阅读(21) 评论(0) 推荐(0) 编辑

虚拟机集群搭建与网络配置

摘要：之前我们搭建了一个伪分布式Hadoop系统，只有一台机器。现在我们再搭建两台虚拟机。 1，先关闭Linux。右键点击虚拟机 2，快照——拍摄快照如图：拍摄快照。 3，进入快照管理 4，快照1——克隆 5，下一步 6，下一步 7，创建完整克隆，下一步 8，设置虚拟机名称，设置位置，这个位置要与之前阅读全文

posted @ 2022-04-06 15:47 码码小菜鸟阅读(205) 评论(0) 推荐(0) 编辑

hadoop伪分布式搭建

摘要：1,下载Hadoop安装包我用的2.8.4版本，上传到Linux上面（跟之前上传jdk文件一样） 2，解压安装包：tar -zxvf 文件名 3，修改一下权限： 4，进入到Hadoop配置文件下面：输入命令：cd hadoop-2.8.4/etc 输入命令：cd hadoop 在这里配置一个伪分布阅读全文

posted @ 2022-04-06 12:10 码码小菜鸟阅读(346) 评论(0) 推荐(0) 编辑

Linux上安装java

摘要：1，输入命令，查看是否已经安装了Openjdk：rpm -qa | grep java 如果有已经安装的java版本或者版本低于1.7，卸载该jdk：rpm -e 软件包名字如果不能卸载，可以加上 --nodeps这个参数去卸载 2，去官网下载linux的jdk 的gz包，使用xftp工具把jdk 阅读全文

posted @ 2022-04-06 10:42 码码小菜鸟阅读(1404) 评论(0) 推荐(0) 编辑

linux配置网络

摘要：1，关闭防火墙在命令行输入一下命令：systemctl stop firewalld.service 再输入：systemctl status firewalld.service 显示这样，说明防火墙已经关闭 2，禁用防火墙输入命令：systmctl disable firewalld.serv 阅读全文

posted @ 2022-04-06 09:13 码码小菜鸟阅读(322) 评论(0) 推荐(0) 编辑

虚拟机上安装Linux系统

摘要：1，打开VMware，文件——新建虚拟机 2，选择自定义 3，选择VMware版本，下一步 4，选择稍后安装操作系统，下一步 5，选择Linux，版本我这里用的是centos7 6，设置虚拟名称，设置位置 7，选择处理器数量和内核数量，下一步 8，选择虚拟内存，下一步 9，网络模式选择neit模式阅读全文

posted @ 2022-04-05 20:49 码码小菜鸟阅读(188) 评论(0) 推荐(0) 编辑

安装虚拟机

摘要：学习hadoop，首先面对的问题就是搭建Hadoop平台，这个任务足够吓退一堆刚入门的兄弟们，各种环境搭建，安装虚拟机，安装Linux系统，安装Hadoop，各种环境变量设置，各种配置文件修改等等等等。现在以本人亲身经历，搭建一个Hadoop平台。算是对自己学习经历的一个梳理和总结。 hadoop 阅读全文

posted @ 2022-04-05 17:42 码码小菜鸟阅读(42) 评论(0) 推荐(0) 编辑

bozai-1

04 2022 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜