随笔分类 -  【53】Hadoop生态

摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 zookeeper-3.4.11 一、CDH在商业应用中,对于企业成百上千的机器集群进行安装hadoop一系列组件费时费力,而且hadoop各个开源组件版本混乱 阅读全文
posted @ 2019-03-07 11:11 cac2020 阅读(5258) 评论(0) 推荐(1) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-2.6.5 hbase-0.98.12.1-hadoop2 阅读全文
posted @ 2019-03-01 17:52 cac2020 阅读(228) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-2.6.5 hbase-0.98.12.1-hadoop2 HBase中表的设计 主要是将原来的关系解开 问题: 例子: 表设计一: 表设计二: 阅读全文
posted @ 2019-02-28 16:34 cac2020 阅读(2079) 评论(0) 推荐(1) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-2.6.5 hbase-0.98.12.1-hadoop2 一、Protocol Google Protocol Buffer( 简称 Proto 阅读全文
posted @ 2019-02-28 12:55 cac2020 阅读(451) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 hbase-2.1.3 一、单机模式搭建 不依赖HDFS 使用本地文件系统。 1、解压HBase,配置HBase环境变量[root@P 阅读全文
posted @ 2019-02-25 18:09 cac2020 阅读(593) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-2.1.3 一、简介 Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式 阅读全文
posted @ 2019-02-20 17:18 cac2020 阅读(265) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、执行计划核心思想:把Hive SQL当做Mapreduce程序去优化以下SQL不会转为Mapr 阅读全文
posted @ 2019-02-19 15:34 cac2020 阅读(4075) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、Hive运行方式1、命令行方式cli:控制台模式 --与hdfs交互 --与Linux交互 : 阅读全文
posted @ 2019-02-19 09:18 cac2020 阅读(1575) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、Hive Lateral ViewLateral View用于和UDTF函数(explode、 阅读全文
posted @ 2019-02-16 17:34 cac2020 阅读(2457) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、Hive 参数 1、Hive 参数类型hive当中的参数、变量,都是以命名空间开头; 通过${ 阅读全文
posted @ 2019-02-15 15:16 cac2020 阅读(1851) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、需求:统计出掉线率最高的前10基站 数据: record_time:通话时间 imei:基站编 阅读全文
posted @ 2019-02-14 16:33 cac2020 阅读(810) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 1.内置运算符 1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返 阅读全文
posted @ 2019-02-06 17:19 cac2020 阅读(1405) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 参考:官网hive操作手册 一、DDL 1、数据类型 2、数据库的创建、删除、修改; 3、表的创建 阅读全文
posted @ 2019-01-29 14:25 cac2020 阅读(3050) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供 阅读全文
posted @ 2019-01-24 16:15 cac2020 阅读(678) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 推荐系统——协同过滤(Collaborative Filtering)算法ItemCF:基于item的协同过滤,通过用户对不同item 阅读全文
posted @ 2019-01-24 10:35 cac2020 阅读(834) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 概念TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常 阅读全文
posted @ 2019-01-24 10:22 cac2020 阅读(1061) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 最应该推荐的好友TopN,如何排名? 阅读全文
posted @ 2019-01-23 12:45 cac2020 阅读(583) 评论(1) 推荐(1) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 找出每个月气温最高的2天 阅读全文
posted @ 2019-01-23 11:52 cac2020 阅读(1388) 评论(0) 推荐(1) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 什么是pagerank?算法原理-1PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要 阅读全文
posted @ 2019-01-22 10:54 cac2020 阅读(759) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 伪分布式:HDFS和YARN 伪分布式搭建,事先启动HDFS和YARN 第一步:开发WordCount示例 第二步:程序打jar包:M 阅读全文
posted @ 2019-01-16 00:27 cac2020 阅读(3140) 评论(2) 推荐(1) 编辑