work hard work smart

专注于Java后端开发。 不断总结,举一反三。
随笔 - 1158, 文章 - 0, 评论 - 153, 阅读 - 186万
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

随笔分类 -  O.大数据

摘要:1、数据准备 people.json { "id": 1, "name": "张三", "age": 38 } { "id": 2, "name": "李四", "age": 30 } { "id": 3, "name": "王五", "age": 28 } 2、DataFrame 读取json文件 阅读全文

posted @ 2024-03-27 09:38 work hard work smart 阅读(14) 评论(0) 推荐(0) 编辑

摘要:一、Local本地模式 1、下载安装包 https://archive.apache.org/dist/flink/ 使用的版本为 flink-1.13.2-bin-scala_2.11.tgz 2、准备文件 vi /xx/work/words.txt 3、启动Flink本机集群 cd /xx/wo 阅读全文

posted @ 2023-03-22 15:33 work hard work smart 阅读(90) 评论(0) 推荐(0) 编辑

摘要:1、下载Flume 版本为apache-flume-1.9.0-bin 链接:https://pan.baidu.com/s/1dSJhZBb6Rz__WYNhM2HzkQ 提取码:1234 2、解压配置 解压后,将conf目录下的flume-env.sh.template复制并改名为flume-e 阅读全文

posted @ 2023-03-22 14:04 work hard work smart 阅读(69) 评论(0) 推荐(0) 编辑

摘要:在Windows下搭建Scala开发环境,需要做以下几个步骤 1) 安装JDK 2) 安装Scala,并配置环境变量 3) Idea安装并创建Scala 类 1、安装JDK JDK安装,这里不再介绍,如下图,可以查看安装后的版本。 2、下载Scala 下载scala-2.11.7.zip,解压到D: 阅读全文

posted @ 2021-02-22 13:28 work hard work smart 阅读(283) 评论(0) 推荐(0) 编辑

摘要:一、Spark下载 进入官网下载需要的版本: http://archive.apache.org/dist/spark/ 官网下载地址太慢,建议在Apache国内镜像下载 地址1:http://mirror.bit.edu.cn/apache/ 地址2:https://mirrors.tuna.ts 阅读全文

posted @ 2021-02-04 15:38 work hard work smart 阅读(150) 评论(0) 推荐(0) 编辑

摘要:一、Spark SQL介绍 1、为什么需要SQL 1) 事实上的标准 2) 易学易用 3) 受众面大 2、Shark(已经停止维护,不建议在生产上使用。) Shark产生的目的就是为了让hive跑在spark之上。 Hive: 类似于sql的Hive QL语言, sql 翻译成 mapreduce 阅读全文

posted @ 2021-02-03 16:29 work hard work smart 阅读(140) 评论(0) 推荐(0) 编辑

摘要:Spark是一个快速且通用的集群计算平台 1、Spark概述及特点 1) Speed: 速度。执行速度快,开发速度提高了很多。 Spark扩充了流行的MapReduce计算模型 Spark是基于内存的计算。 2) Ease of User: 易用。支持多种语言,如Python,Java,Scala等 阅读全文

posted @ 2021-02-03 13:37 work hard work smart 阅读(316) 评论(0) 推荐(0) 编辑

摘要:1、创建表 create table hive_wordcount(context string); 2、查看表 show tables; 3、查询表数据 4、查看刚才创建的Mysql数据库sparksql的表TBLS,可以发现已经有1条记录了,TBL_NAME 为hive_wordcount 从C 阅读全文

posted @ 2021-02-02 23:12 work hard work smart 阅读(167) 评论(0) 推荐(0) 编辑

摘要:1、Hive是什么 由Facebook开源,最初用于解决海量结构化的日志数据统计问题。 构建在Hadoop之上的数据仓库 Hive定义了一种类SQL查询语言: HQL(类似SQL但不完全相同) 通常用于进行离线数据处理(采用MapReduce) 底层支持多种不同的执行引擎(包括MapReduce、T 阅读全文

posted @ 2021-02-02 21:12 work hard work smart 阅读(178) 评论(0) 推荐(0) 编辑

摘要:1、YARN架构 图片来自: https://hadoop.apache.org/docs/r3.2.2/hadoop-yarn/hadoop-yarn-site/YARN.html 1个RN(ResourceManager)和多个NM(NodeManager) ResourceManager职责: 阅读全文

posted @ 2021-01-31 23:09 work hard work smart 阅读(169) 评论(0) 推荐(0) 编辑

摘要:这里简单介绍下MapReduce 1、什么是MapReduce 1、源自Google的MapReduce论文 2、发表于2004年12月,Hadoop MapReduce是Google MapReduce的克隆版 2、MapReduce特点 易于编程 良好的扩展性 高容错性 海量数据的离线处理 3、 阅读全文

posted @ 2021-01-31 12:20 work hard work smart 阅读(198) 评论(0) 推荐(0) 编辑

摘要:HBase安装 HBase下载:http://archive.apache.org/dist/hbase/ 我这里下载的是hbase-1.1.0-bin.tar.gz 1) 解压: tar -zxvf hbase-1.1.0-bin.tar.gz 2) 配置JDK /root/tools/hbase 阅读全文

posted @ 2021-01-30 23:10 work hard work smart 阅读(137) 评论(0) 推荐(0) 编辑

摘要:一、什么是大数据 专业咨询公司IDC对大数据特征的定义: 4V 1、数据量(Volume): TB,PB级别以上。 2、多样性,复杂性(Variety): 结构化数据(关系型数据库),文件,视频,音频、图像,地理位置 3、基于高度分析的新价值(Value): 价值密度比较低,比如1个小时的视频,只有 阅读全文

posted @ 2021-01-30 19:20 work hard work smart 阅读(455) 评论(0) 推荐(0) 编辑

摘要:Spring Boot版本v1.5.19.RELEASE 1、增加Jar <dependency> <groupId>com.spring4all</groupId> <artifactId>spring-boot-starter-hbase</artifactId> <version>1.0.0. 阅读全文

posted @ 2020-05-31 15:12 work hard work smart 阅读(1109) 评论(0) 推荐(0) 编辑

摘要:HBase是一个分布式的数据库 主要作用: 海量数据的存储和海量数据的准实时查询 1、HBase安装说明 JDK1.7以上(JDK安装这里不作介绍) Hadoop-2.5.0以上。 我这里用的是Hadoop2.6 Zookeeper-3.4.* 以上。 我这里是Zookeeper-3.4.13 参考 阅读全文

posted @ 2020-05-30 15:19 work hard work smart 阅读(272) 评论(0) 推荐(0) 编辑

摘要:1、HBase的能做什么 1、海量数据存储(上百亿行*上百万列) 2、准实时查询(百毫秒之内查询) 最多上百万行的数据,不建议使用Hbase。不能发挥Hbase的优势 2、HBase的应用场景和特点 交通 (如GPS数据,长江河道的船舶的GPS,城市十字路口的摄像头违章拍照) 金融:支付交易(取款信 阅读全文

posted @ 2019-07-27 22:39 work hard work smart 阅读(234) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示