大数据 - 随笔分类(第2页) - 不像话

使用sqoop将mysql数据导入到hive中

摘要：首先准备工具环境：hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表：接下来就可以操作了。。。一、将MySQL数据导入到hdfs 首先我测试将zhaopin表中的前100条数据导出来，只要id、jobname、salarylevel三个字段。再Hdfs上创阅读全文

posted @ 2019-12-01 16:12 不像话阅读(6534) 评论(0) 推荐(1) 编辑

Mapreduce实例--倒排索引

摘要："倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index）。实阅读全文

posted @ 2019-11-19 15:35 不像话阅读(759) 评论(0) 推荐(0) 编辑

Mapreduce实例--二次排序

摘要：前言部分：在Map阶段，使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时InputFormat提供一个RecordReder的实现。本实验中使用的是TextInputFormat，他提供的RecordReder会将文本的阅读全文

posted @ 2019-11-19 14:09 不像话阅读(424) 评论(0) 推荐(0) 编辑

Mapreduce实例--去重

摘要：数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。在MapReduce流程中，map的输出<key,value>经阅读全文

posted @ 2019-11-18 20:28 不像话阅读(783) 评论(0) 推荐(0) 编辑

Mapreduce实例--求平均值

摘要：求平均数是MapReduce比较常见的算法，求平均数的算法也比较简单，一种思路是Map端读取数据，在数据输入到Reduce之前先经过shuffle，将map函数输出的key值相同的所有的value值形成一个集合value-list，然后将输入到Reduce端，Reduce端汇总并且统计记录数，然后作阅读全文

posted @ 2019-11-17 13:46 不像话阅读(4247) 评论(0) 推荐(0) 编辑

IDEA本地运行Hadoop程序配置环境变量

摘要：1.首先到github上下载hadoop-common-2.2.0-bin-master 2.解压放到自定义目录下再将hadoop.dll文件复制到windows/System32目录下 3.配置环境变量再运行项目就OK了阅读全文

posted @ 2019-11-15 12:17 不像话阅读(1360) 评论(0) 推荐(0) 编辑

Hadoop之WordCount

摘要：求平均数是MapReduce比较常见的算法，求平均数的算法也比较简单，一种思路是Map端读取数据，在数据输入到Reduce之前先经过shuffle，将map函数输出的key值相同的所有的value值形成一个集合value-list，然后将输入到Reduce端，Reduce端汇总并且统计记录数，然后作阅读全文

posted @ 2019-11-15 11:46 不像话阅读(351) 评论(0) 推荐(0) 编辑

hadoop伪分布式平台组件搭建

摘要：第一部分：系统基础配置系统基础配置中主完成了安装大数据环境之前的基础配置，如防火墙配置和安装MySQL、JDK安装等第一步：关闭防火墙 Hadoop与其他组件的服务需要通过端口进行通信，防火墙的存在会阻拦这些访问，在初学阶段建议将防火墙全部关闭，命令如下。第二步：安装JDK JDK安装包已经阅读全文

posted @ 2019-11-03 14:35 不像话阅读(423) 评论(0) 推荐(0) 编辑

Hive安装配置

摘要：1.上传tar包2.解压 3.配置mysql metastore（切换到root用户）配置HIVE_HOME环境变量修改mysql的密码（注意：删除匿名用户，允许用户远程连接）登陆mysql mysql -u root -p 4.配置hive 修改hive-site.xml（删除所有内容，只阅读全文

posted @ 2019-09-20 20:38 不像话阅读(319) 评论(0) 推荐(0) 编辑

hadoop大数据组件启动

摘要：1.1.启动集群 sbin/start-dfs.sh注：这个启动脚本是通过ssh对多个节点的namenode、datanode、journalnode以及zkfc进程进行批量启动的。 1.2.启动NameNode sbin/hadoop-daemon.sh start namenode1.3.启动D 阅读全文

posted @ 2019-08-30 16:39 不像话阅读(400) 评论(0) 推荐(0) 编辑

spark集群运行模式

摘要：spark的集中运行模式 Local 、Standalone、Yarn 关闭防火墙：systemctl stop firewalld.service 重启网络服务：systemctl restart network.service 设置静态IP 设置/etc/hosts 配置免密登录在往期的Hado 阅读全文

posted @ 2019-08-30 16:24 不像话阅读(1518) 评论(0) 推荐(0) 编辑

flink集群模式安装配置

摘要：一、手动下载安装包 wget http://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.6.1/flink-1.6.1-bin-hadoop27-scala_2.11.tgz 二、解压 tar -zxvf flink-1.6.1-bin-had 阅读全文

posted @ 2019-08-30 16:04 不像话阅读(4484) 评论(0) 推荐(0) 编辑

kafka集群安装

摘要：1.准备三台机器，手动下载kafka安装包 2.解压移动 3.配置jdk+环境变量 4.配置Kafka 5.分发文件 6.先启动zk 再启动kafka-server-start.sh bin/kafka-server-start.sh -daemon config/server.properties 阅读全文

posted @ 2019-08-30 15:44 不像话阅读(217) 评论(0) 推荐(0) 编辑

Hbase集群模式搭建

摘要：1.官网下载hbase安装包这里不做赘述。 2.解压直接tar -zxvf xxxx 3.配置hbase集群，要修改3个文件（首先zk集群已经安装好了）注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh 阅读全文

posted @ 2019-08-30 15:41 不像话阅读(920) 评论(0) 推荐(0) 编辑

sqoop安装配置

摘要：sqoop安装：安装在一台节点上就可以了。 1.安装和配置在添加sqoop到环境变量将数据库连接驱动拷贝到$SQOOP_HOME/lib里 2.使用第一类：数据库中的数据导入到HDFS上指定输出路径、指定数据分隔符指定Map数量 -m 增加where条件, 注意：条件必须用引号引起来增加阅读全文

posted @ 2019-08-30 15:38 不像话阅读(313) 评论(0) 推荐(0) 编辑

zookeeper集群模式安装

摘要：一、解压 tar -zxvf xxxxxxxxxxxxx 二、配置(先在一台节点上配置) 1.进入conf文件配置目录 cp zoo_sample.cfg zoo.cfg 2.修改配置文件（zoo.cfg） dataDir=/itcast/zookeeper-3.4.5/data server.5= 阅读全文

posted @ 2019-08-30 15:34 不像话阅读(350) 评论(0) 推荐(0) 编辑

hive集群模式安装

摘要：hadoop3.2.0 完全分布式安装 hive-3.1.1 #解压缩tar -zxvf /usr/local/soft/apache-hive-3.1.1-bin.tar.gz -C /usr/local/#修改目录名称mv /usr/local/apache-hive-3.1.1-bin/ /u 阅读全文

posted @ 2019-08-30 15:17 不像话阅读(3083) 评论(0) 推荐(0) 编辑

Hadoop集群模式安装出现的若干问题

摘要：一、域名解析问题域名解析暂时失败问题 vim /etc/sysconfig/network 查看主机名 vim etc/hosts 配置IP地址与主机名 192.168.60.132 centos #改正就OK啦二、启动问题三、端口问题四、Failed to get D-Bus connec 阅读全文

posted @ 2019-08-30 15:13 不像话阅读(2778) 评论(2) 推荐(0) 编辑

Hadoop集群安装配置

摘要：一、准备工作 1.首先准备好七台虚拟机，并确保都已经安装配置好jdk。 2.Hadoop3.2.0+jdk1.8自行到官网下载 3.修改好相称的主机名，并在hosts文件中相互添加。 ######注意######如果你们公司是租用的服务器或是使用的云主机（如华为用主机、阿里云主机等） /etc/ho 阅读全文

posted @ 2019-08-30 14:26 不像话阅读(433) 评论(0) 推荐(0) 编辑

不像话

随笔分类 - 大数据

公告

搜索

常用链接

我的标签

积分与排名

随笔分类 (192)

随笔档案 (165)

阅读排行榜

评论排行榜

推荐排行榜

最新评论