wqy1027

eeee

 

2022年10月24日

Spark概述,安装,以及四种运行方式

摘要: Spark Apache Spark是一个开源集群计算系统,旨在使数据分析更快 Hadoop的共享数据为什么慢? Spark的共享数据快 Spark支持三种语言,scala、python、java 可以通过四种模式运行Spark 1、Local(多用于测试) 2、Standalone 3、Mesos 阅读全文

posted @ 2022-10-24 16:43 不想写代码的小玉 阅读(174) 评论(0) 推荐(0) 编辑

2022年10月20日

Scala题目

摘要: Scala题目 数据在bigdata19-scala/data中 题目: 基础 1、统计班级人数 [班级,人数] 2、统计学生的总分 [学号,学生姓名,学生年龄,总分]进阶 1、统计年级排名前十学生各科的分数 [学号,姓名,班级,科目,分数]2、统计总分大于年级平均分的学生 [学号,姓名,班级,总分 阅读全文

posted @ 2022-10-20 21:53 不想写代码的小玉 阅读(88) 评论(0) 推荐(0) 编辑

2022年10月19日

scala函数。匿名函数、样例类

摘要: Scala使用 1、scala构造方法。定义方法。重载构造方法 package com object Demo03ScalaClass { def main(args: Array[String]): Unit = { val stu1: Stu = new Stu("01", "王五", 18) 阅读全文

posted @ 2022-10-19 21:19 不想写代码的小玉 阅读(49) 评论(0) 推荐(0) 编辑

Scala简述、安装、简单使用

摘要: Scala概述 Scala是多范式编程语言也是jvm语言,是把函数式编程思想和面向对象编程思想结合的一种编程语言。 scala特点: 多范式 1)面向对象。 2)函数式编程 兼容java 1)类库调用 2)互操作 语法简洁 1)代码行短 2)类型推断 3)抽象控制 静态类型化 1)可检验 2)安全重 阅读全文

posted @ 2022-10-19 21:05 不想写代码的小玉 阅读(106) 评论(0) 推荐(0) 编辑

2022年10月10日

Python概述,安装

摘要: 1、高级语言介绍 编译型语言(例如c语言) 类似谷歌翻译,是把程序所有代码编译成计算机能识别的二进制指令,之后操作系统会拿着编译好的二进制指令直接操作硬件,详细如下 1、执行效率高 编译是指在应用源程序执行之前,就将程序源代码“翻译”成目标代码(即机器语言), 因此其目标程序可以脱离其语言环境独立执 阅读全文

posted @ 2022-10-10 20:38 不想写代码的小玉 阅读(51) 评论(0) 推荐(0) 编辑

2022年10月7日

kettle-安装,使用,案例

摘要: Kettle概述 1、什么是kettle Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 2、Kettle工程存储方式 (1)以XML形式存储 (2)以资源库方式存储(数据库资源库和文件资源库) 3、Kettle的 阅读全文

posted @ 2022-10-07 19:10 不想写代码的小玉 阅读(218) 评论(0) 推荐(0) 编辑

sqoop安装及使用

摘要: sqoop简介 sqoop是将关系数据库(Oracle,mysql,postgresql等) 数据与hadoop数据进行互相同步的工具。 RDB(关系型数据库)->hdfs 是import;hdfs->RDB 是export sqoop版本:1)sqoop1:1.4x 2)sqoop2:1.99x 阅读全文

posted @ 2022-10-07 18:22 不想写代码的小玉 阅读(267) 评论(0) 推荐(0) 编辑

2022年10月4日

数据采集工具-FlinkX

摘要: FlinkX的安装与简单使用 FlinkX概述 FlinkX是在袋鼠云内部广泛使用的基于flink的分布式离线和实时的数据同步框架,实现了多种异构数据源之间高效的数据迁移。 不同的数据源头被抽象成不同的Reader插件,不同的数据目标被抽象成不同的Writer插件。理论上,FlinkX框架可以支持任 阅读全文

posted @ 2022-10-04 16:37 不想写代码的小玉 阅读(439) 评论(0) 推荐(0) 编辑

HBase的优化

摘要: 一、HBase索引案例(使用redis存储索引) 在这里是简单模拟将索引存到redis中,再通过先查询索引再将Hbase中的数据查询出来。 需要考虑的问题: 1、建立redis的连接,建立Hbase的连接 2、如何创建索引,即创建索引的key和value的设计 3、如何通过将查到的索引,去查询到对应 阅读全文

posted @ 2022-10-04 16:10 不想写代码的小玉 阅读(672) 评论(0) 推荐(0) 编辑

HBase中rowkey的设计

摘要: HBase中rowkey的设计(重点!!面试题) HBase的RowKey设计 HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。 HBase中r 阅读全文

posted @ 2022-10-04 16:03 不想写代码的小玉 阅读(379) 评论(0) 推荐(0) 编辑

导航