O.大数据 - 随笔分类 - work hard work smart

Spark 编程

摘要：1、数据准备 people.json { "id": 1, "name": "张三", "age": 38 } { "id": 2, "name": "李四", "age": 30 } { "id": 3, "name": "王五", "age": 28 } 2、DataFrame 读取json文件阅读全文

posted @ 2024-03-27 09:38 work hard work smart 阅读(33) 评论(0) 推荐(0)

Flink安装部署

摘要：一、Local本地模式 1、下载安装包 https://archive.apache.org/dist/flink/ 使用的版本为 flink-1.13.2-bin-scala_2.11.tgz 2、准备文件 vi /xx/work/words.txt 3、启动Flink本机集群 cd /xx/wo 阅读全文

posted @ 2023-03-22 15:33 work hard work smart 阅读(104) 评论(0) 推荐(0)

Flume安装

摘要：1、下载Flume 版本为apache-flume-1.9.0-bin 链接：https://pan.baidu.com/s/1dSJhZBb6Rz__WYNhM2HzkQ 提取码：1234 2、解压配置解压后，将conf目录下的flume-env.sh.template复制并改名为flume-e 阅读全文

posted @ 2023-03-22 14:04 work hard work smart 阅读(81) 评论(0) 推荐(0)

Window下Scala开发环境搭建

摘要：在Windows下搭建Scala开发环境，需要做以下几个步骤 1) 安装JDK 2) 安装Scala，并配置环境变量 3) Idea安装并创建Scala 类 1、安装JDK JDK安装，这里不再介绍，如下图，可以查看安装后的版本。 2、下载Scala 下载scala-2.11.7.zip，解压到D: 阅读全文

posted @ 2021-02-22 13:28 work hard work smart 阅读(313) 评论(0) 推荐(0)

Spark环境搭建

摘要：一、Spark下载进入官网下载需要的版本： http://archive.apache.org/dist/spark/ 官网下载地址太慢，建议在Apache国内镜像下载地址1：http://mirror.bit.edu.cn/apache/ 地址2：https://mirrors.tuna.ts 阅读全文

posted @ 2021-02-04 15:38 work hard work smart 阅读(182) 评论(0) 推荐(0)

Spark SQL概述

摘要：一、Spark SQL介绍 1、为什么需要SQL 1) 事实上的标准 2) 易学易用 3) 受众面大 2、Shark（已经停止维护，不建议在生产上使用。） Shark产生的目的就是为了让hive跑在spark之上。 Hive：类似于sql的Hive QL语言， sql 翻译成 mapreduce 阅读全文

posted @ 2021-02-03 16:29 work hard work smart 阅读(149) 评论(0) 推荐(0)

Spark生态圈概述

摘要：Spark是一个快速且通用的集群计算平台 1、Spark概述及特点 1) Speed：速度。执行速度快，开发速度提高了很多。 Spark扩充了流行的MapReduce计算模型 Spark是基于内存的计算。 2) Ease of User：易用。支持多种语言,如Python，Java，Scala等阅读全文

posted @ 2021-02-03 13:37 work hard work smart 阅读(338) 评论(0) 推荐(0)

大数据数据仓库Hive基本使用

摘要：1、创建表 create table hive_wordcount(context string); 2、查看表 show tables; 3、查询表数据 4、查看刚才创建的Mysql数据库sparksql的表TBLS，可以发现已经有1条记录了，TBL_NAME 为hive_wordcount 从C 阅读全文

posted @ 2021-02-02 23:12 work hard work smart 阅读(174) 评论(0) 推荐(0)

大数据数据仓库Hive

摘要：1、Hive是什么由Facebook开源，最初用于解决海量结构化的日志数据统计问题。构建在Hadoop之上的数据仓库 Hive定义了一种类SQL查询语言： HQL（类似SQL但不完全相同）通常用于进行离线数据处理（采用MapReduce）底层支持多种不同的执行引擎（包括MapReduce、T 阅读全文

posted @ 2021-02-02 21:12 work hard work smart 阅读(183) 评论(0) 推荐(0)

资源调度框架YARN介绍

摘要：1、YARN架构图片来自： https://hadoop.apache.org/docs/r3.2.2/hadoop-yarn/hadoop-yarn-site/YARN.html 1个RN（ResourceManager）和多个NM(NodeManager) ResourceManager职责：阅读全文

posted @ 2021-01-31 23:09 work hard work smart 阅读(182) 评论(0) 推荐(0)

MapReduce介绍

摘要：这里简单介绍下MapReduce 1、什么是MapReduce 1、源自Google的MapReduce论文 2、发表于2004年12月，Hadoop MapReduce是Google MapReduce的克隆版 2、MapReduce特点易于编程良好的扩展性高容错性海量数据的离线处理 3、阅读全文

posted @ 2021-01-31 12:20 work hard work smart 阅读(203) 评论(0) 推荐(0)

HBase安装和常用命令使用

摘要：HBase安装 HBase下载：http://archive.apache.org/dist/hbase/ 我这里下载的是hbase-1.1.0-bin.tar.gz 1) 解压： tar -zxvf hbase-1.1.0-bin.tar.gz 2) 配置JDK /root/tools/hbase 阅读全文

posted @ 2021-01-30 23:10 work hard work smart 阅读(158) 评论(0) 推荐(0)

大数据基本概念介绍

摘要：一、什么是大数据专业咨询公司IDC对大数据特征的定义： 4V 1、数据量（Volume）： TB，PB级别以上。 2、多样性，复杂性（Variety）: 结构化数据(关系型数据库），文件，视频，音频、图像，地理位置 3、基于高度分析的新价值（Value）：价值密度比较低，比如1个小时的视频，只有阅读全文

posted @ 2021-01-30 19:20 work hard work smart 阅读(485) 评论(0) 推荐(0)

Spring Boot集成HBase

摘要：Spring Boot版本v1.5.19.RELEASE 1、增加Jar <dependency> <groupId>com.spring4all</groupId> <artifactId>spring-boot-starter-hbase</artifactId> <version>1.0.0. 阅读全文

posted @ 2020-05-31 15:12 work hard work smart 阅读(1140) 评论(0) 推荐(0)

Hadoop安装和HDFS shell 常用命令操作

摘要：HBase是一个分布式的数据库主要作用：海量数据的存储和海量数据的准实时查询 1、HBase安装说明 JDK1.7以上（JDK安装这里不作介绍） Hadoop-2.5.0以上。我这里用的是Hadoop2.6 Zookeeper-3.4.* 以上。我这里是Zookeeper-3.4.13 参考阅读全文

posted @ 2020-05-30 15:19 work hard work smart 阅读(284) 评论(0) 推荐(0)

HBase 介绍

摘要：1、HBase的能做什么 1、海量数据存储（上百亿行*上百万列） 2、准实时查询（百毫秒之内查询）最多上百万行的数据，不建议使用Hbase。不能发挥Hbase的优势 2、HBase的应用场景和特点交通（如GPS数据，长江河道的船舶的GPS，城市十字路口的摄像头违章拍照）金融：支付交易（取款信阅读全文

posted @ 2019-07-27 22:39 work hard work smart 阅读(248) 评论(0) 推荐(0)

work hard work smart

公告

随笔分类 - O.大数据