随笔分类 - 【53】Hadoop生态
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 zookeeper-3.4.11 一、CDH在商业应用中,对于企业成百上千的机器集群进行安装hadoop一系列组件费时费力,而且hadoop各个开源组件版本混乱
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-2.6.5 hbase-0.98.12.1-hadoop2
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-2.6.5 hbase-0.98.12.1-hadoop2 HBase中表的设计 主要是将原来的关系解开 问题: 例子: 表设计一: 表设计二:
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-2.6.5 hbase-0.98.12.1-hadoop2 一、Protocol Google Protocol Buffer( 简称 Proto
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 hbase-2.1.3 一、单机模式搭建 不依赖HDFS 使用本地文件系统。 1、解压HBase,配置HBase环境变量[root@P
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-2.1.3 一、简介 Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、执行计划核心思想:把Hive SQL当做Mapreduce程序去优化以下SQL不会转为Mapr
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、Hive运行方式1、命令行方式cli:控制台模式 --与hdfs交互 --与Linux交互 :
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、Hive Lateral ViewLateral View用于和UDTF函数(explode、
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、Hive 参数 1、Hive 参数类型hive当中的参数、变量,都是以命名空间开头; 通过${
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、需求:统计出掉线率最高的前10基站 数据: record_time:通话时间 imei:基站编
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 1.内置运算符 1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 参考:官网hive操作手册 一、DDL 1、数据类型 2、数据库的创建、删除、修改; 3、表的创建
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一、简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 推荐系统——协同过滤(Collaborative Filtering)算法ItemCF:基于item的协同过滤,通过用户对不同item
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 概念TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 最应该推荐的好友TopN,如何排名?
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 找出每个月气温最高的2天
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 什么是pagerank?算法原理-1PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要
阅读全文
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 伪分布式:HDFS和YARN 伪分布式搭建,事先启动HDFS和YARN 第一步:开发WordCount示例 第二步:程序打jar包:M
阅读全文