打赏

随笔分类 -  大数据

摘要:首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了。。。 一、将MySQL数据导入到hdfs 首先我测试将zhaopin表中的前100条数据导出来,只要id、jobname、salarylevel三个字段。 再Hdfs上创 阅读全文
posted @ 2019-12-01 16:12 不像话 阅读(6534) 评论(0) 推荐(1) 编辑
摘要:"倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。 实 阅读全文
posted @ 2019-11-19 15:35 不像话 阅读(759) 评论(0) 推荐(0) 编辑
摘要:前言部分: 在Map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本实验中使用的是TextInputFormat,他提供的RecordReder会将文本的 阅读全文
posted @ 2019-11-19 14:09 不像话 阅读(424) 评论(0) 推荐(0) 编辑
摘要:数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。在MapReduce流程中,map的输出<key,value>经 阅读全文
posted @ 2019-11-18 20:28 不像话 阅读(783) 评论(0) 推荐(0) 编辑
摘要:求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce端汇总并且统计记录数,然后作 阅读全文
posted @ 2019-11-17 13:46 不像话 阅读(4247) 评论(0) 推荐(0) 编辑
摘要:1.首先到github上下载hadoop-common-2.2.0-bin-master 2.解压放到自定义目录下 再将hadoop.dll文件复制到windows/System32目录下 3.配置环境变量 再运行项目就OK了 阅读全文
posted @ 2019-11-15 12:17 不像话 阅读(1360) 评论(0) 推荐(0) 编辑
摘要:求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce端汇总并且统计记录数,然后作 阅读全文
posted @ 2019-11-15 11:46 不像话 阅读(351) 评论(0) 推荐(0) 编辑
摘要:第一部分:系统基础配置 系统基础配置中主完成了安装大数据环境之前的基础配置,如防火墙配置和安装MySQL、JDK安装等 第一步:关闭防火墙 Hadoop与其他组件的服务需要通过端口进行通信,防火墙的存在会阻拦这些访问,在初学阶段建议将防火墙全部 关闭,命令如下。 第二步:安装JDK JDK安装包已经 阅读全文
posted @ 2019-11-03 14:35 不像话 阅读(423) 评论(0) 推荐(0) 编辑
摘要:1.上传tar包2.解压 3.配置mysql metastore(切换到root用户) 配置HIVE_HOME环境变量 修改mysql的密码 (注意:删除匿名用户,允许用户远程连接) 登陆mysql mysql -u root -p 4.配置hive 修改hive-site.xml(删除所有内容,只 阅读全文
posted @ 2019-09-20 20:38 不像话 阅读(319) 评论(0) 推荐(0) 编辑
摘要:1.1.启动集群 sbin/start-dfs.sh注:这个启动脚本是通过ssh对多个节点的namenode、datanode、journalnode以及zkfc进程进行批量启动的。 1.2.启动NameNode sbin/hadoop-daemon.sh start namenode1.3.启动D 阅读全文
posted @ 2019-08-30 16:39 不像话 阅读(400) 评论(0) 推荐(0) 编辑
摘要:spark的集中运行模式 Local 、Standalone、Yarn 关闭防火墙:systemctl stop firewalld.service 重启网络服务:systemctl restart network.service 设置静态IP 设置/etc/hosts 配置免密登录在往期的Hado 阅读全文
posted @ 2019-08-30 16:24 不像话 阅读(1518) 评论(0) 推荐(0) 编辑
摘要:一、手动下载安装包 wget http://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.6.1/flink-1.6.1-bin-hadoop27-scala_2.11.tgz 二、解压 tar -zxvf flink-1.6.1-bin-had 阅读全文
posted @ 2019-08-30 16:04 不像话 阅读(4484) 评论(0) 推荐(0) 编辑
摘要:1.准备三台机器,手动下载kafka安装包 2.解压移动 3.配置jdk+环境变量 4.配置Kafka 5.分发文件 6.先启动zk 再启动kafka-server-start.sh bin/kafka-server-start.sh -daemon config/server.properties 阅读全文
posted @ 2019-08-30 15:44 不像话 阅读(217) 评论(0) 推荐(0) 编辑
摘要:1.官网下载hbase安装包 这里不做赘述。 2.解压 直接tar -zxvf xxxx 3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh 阅读全文
posted @ 2019-08-30 15:41 不像话 阅读(920) 评论(0) 推荐(0) 编辑
摘要:sqoop安装:安装在一台节点上就可以了。 1.安装和配置 在添加sqoop到环境变量 将数据库连接驱动拷贝到$SQOOP_HOME/lib里 2.使用 第一类:数据库中的数据导入到HDFS上 指定输出路径、指定数据分隔符 指定Map数量 -m 增加where条件, 注意:条件必须用引号引起来 增加 阅读全文
posted @ 2019-08-30 15:38 不像话 阅读(313) 评论(0) 推荐(0) 编辑
摘要:一、解压 tar -zxvf xxxxxxxxxxxxx 二、配置(先在一台节点上配置) 1.进入conf文件配置目录 cp zoo_sample.cfg zoo.cfg 2.修改配置文件(zoo.cfg) dataDir=/itcast/zookeeper-3.4.5/data server.5= 阅读全文
posted @ 2019-08-30 15:34 不像话 阅读(350) 评论(0) 推荐(0) 编辑
摘要:hadoop3.2.0 完全分布式安装 hive-3.1.1 #解压缩tar -zxvf /usr/local/soft/apache-hive-3.1.1-bin.tar.gz -C /usr/local/#修改目录名称mv /usr/local/apache-hive-3.1.1-bin/ /u 阅读全文
posted @ 2019-08-30 15:17 不像话 阅读(3083) 评论(0) 推荐(0) 编辑
摘要:一、域名解析问题 域名解析暂时失败问题 vim /etc/sysconfig/network 查看主机名 vim etc/hosts 配置IP地址与主机名 192.168.60.132 centos #改正就OK啦 二、启动问题 三、端口问题 四、Failed to get D-Bus connec 阅读全文
posted @ 2019-08-30 15:13 不像话 阅读(2778) 评论(2) 推荐(0) 编辑
摘要:一、准备工作 1.首先准备好七台虚拟机,并确保都已经安装配置好jdk。 2.Hadoop3.2.0+jdk1.8自行到官网下载 3.修改好相称的主机名,并在hosts文件中相互添加。 ######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc/ho 阅读全文
posted @ 2019-08-30 14:26 不像话 阅读(433) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示