06 2023 档案

摘要:# 使用PySpark ## 配置python环境 在所有节点上按照python3,版本必须是python3.6及以上版本 ```Shell yum install -y python3 ``` 修改所有节点的环境变量 ```Shell export JAVA_HOME=/usr/local/jdk 阅读全文
posted @ 2023-06-29 21:06 _泡泡 阅读(63) 评论(0) 推荐(0) 编辑
摘要:# Scala编写Spark的WorkCount ## 创建一个Maven项目 在pom.xml中添加依赖和插件 ```XML 8 8 UTF-8 3.2.3 2.12.15 org.scala-lang scala-library ${scala.version} org.apache.spark 阅读全文
posted @ 2023-06-28 20:43 _泡泡 阅读(57) 评论(0) 推荐(0) 编辑
摘要:# StandAlone模式环境搭建 环境准备:三台Linux,一个安装Master,其他两台机器安装Worker ![image](https://img2023.cnblogs.com/blog/1742816/202306/1742816-20230627212426287-907092698 阅读全文
posted @ 2023-06-27 21:37 _泡泡 阅读(151) 评论(0) 推荐(0) 编辑
摘要:# Spark架构体系 StandAlone模式是spark自带的集群运行模式,不依赖其他的资源调度框架,部署起来简单。 StandAlone模式又分为client模式和cluster模式,本质区别是Driver运行在哪里,如果Driver运行在SparkSubmit进程中就是Client模式,如果 阅读全文
posted @ 2023-06-26 19:34 _泡泡 阅读(58) 评论(0) 推荐(0) 编辑
摘要:# Spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache的顶级项目,2014年5月发布spark1.0,2016年7月发布spark2.0,2020年6月 阅读全文
posted @ 2023-06-25 23:17 _泡泡 阅读(119) 评论(0) 推荐(0) 编辑
摘要:# SQL join语法案例 Data: ```Plain Text order.txt order011,u001,300 order012,u002,200 order023,u006,100 order056,u007,300 order066,u003,500 order055,u004,3 阅读全文
posted @ 2023-06-24 19:22 _泡泡 阅读(75) 评论(0) 推荐(1) 编辑
摘要:# wordCount ```Scala package com.doit.day03 import scala.io.{BufferedSource, Source} object WordCountDemo { def main(args: Array[String]): Unit = { // 阅读全文
posted @ 2023-06-23 21:18 _泡泡 阅读(52) 评论(0) 推荐(0) 编辑
摘要:# 异常处理 语法处理上和 Java 类似,但是又不尽相同。 ## java的异常处理 ```Scala public class ExceptionDemo { public static void main(String[] args) { try { int a = 10; int b = 0 阅读全文
posted @ 2023-06-22 21:23 _泡泡 阅读(71) 评论(0) 推荐(0) 编辑
摘要:# 泛型的定义 ```Scala object _11_泛型 { def main(args: Array[String]): Unit = { //[A] 这个代表的就是泛型 ==》 在创建对象的时候,可以指定需要传进去的类型 //作用就是在创建对象的时候,可以对传进去的参数一个约束,当设置泛型位 阅读全文
posted @ 2023-06-21 22:28 _泡泡 阅读(57) 评论(0) 推荐(0) 编辑
摘要:# 高阶函数 ## 函数可以作为参数进行传递和返回值进行返回 ```Scala //传一个a乘b 就返回一个函数,逻辑是实现两数相乘 //传一个a*b 返回一个函数,逻辑是实现两数相乘 //传一个axb 返回一个函数,逻辑是实现两数相乘 def funTest6(str:String,fun:(St 阅读全文
posted @ 2023-06-19 22:43 _泡泡 阅读(94) 评论(0) 推荐(0) 编辑
摘要:# 集合 scala中的集合分为两种 ,可变集合和不可变集合, 不可变集合可以安全的并发的访问! 集合的类主要在一下两个包中 - 可变集合包 scala.collection.mutable - 不可变集合包 scala.collection.immutable 默认的 Scala 不可变集合,就是 阅读全文
posted @ 2023-06-18 19:52 _泡泡 阅读(103) 评论(0) 推荐(0) 编辑
摘要:# 类和对象 **组成结构** • 构造函数: 在创建对象的时候给属性赋值 • 成员变量: • 成员方法(函数) • 局部变量 • 代码块 ## 构造器 每个类都有一个主构造器,这个构造器和类定义"交织"在一起类名后面的内容就是主构造器,如果参数列表为空的话,()可以省略 scala的类有且仅有一个 阅读全文
posted @ 2023-06-17 16:33 _泡泡 阅读(79) 评论(0) 推荐(0) 编辑
摘要:- 方法和函数的作用几乎是一样的,但是函数在使用的过程中更加灵活和多样化 - scala中函数是头等公民 . 可以作为方法的返回值和参数使用 - scala是一个集面向对象和面向函数于一身的编程语言 , 灵活的函数是函数式编程的一种体现 - 函数的使用使代码更加简洁和灵活 # 函数 scala中一种 阅读全文
posted @ 2023-06-16 21:07 _泡泡 阅读(183) 评论(0) 推荐(0) 编辑
摘要:# scala的基本语法 ## 注释 对于scala的注释,简而言之就是一句话,和java的注释一模一样 基本语法 ``` (1)单行注释:// (2)多行注释:/* */ (3)文档注释:/** * */ ``` 代码示例: ```Scala package com.doitedu.demo01 阅读全文
posted @ 2023-06-15 20:30 _泡泡 阅读(123) 评论(0) 推荐(0) 编辑
摘要:# 简介 Scala是一种多范式的编程语言(多范式:多种编程方法的意思。有面向过程、面向对象、泛型、函数式四种程序设计方法),其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序 > 官网:https://www.scala 阅读全文
posted @ 2023-06-14 16:59 _泡泡 阅读(196) 评论(0) 推荐(0) 编辑
摘要:# region Region是HBase数据管理的基本单位,region有一点像关系型数据的分区。 Region中存储这用户的真实数据,而为了管理这些数据,HBase使用了RegionSever来管理region。 ## region的分配 一个表中可以包含一个或多个Region。 每个Regio 阅读全文
posted @ 2023-06-13 22:57 _泡泡 阅读(708) 评论(0) 推荐(0) 编辑
摘要:# 导入Maven依赖 ```XML org.apache.zookeeper zookeeper 3.4.6 org.apache.hbase hbase-client 2.2.5 org.apache.hadoop hadoop-client 3.2.1 org.apache.hadoop ha 阅读全文
posted @ 2023-06-12 19:06 _泡泡 阅读(179) 评论(0) 推荐(0) 编辑
摘要:# 简介 HBase 是一个**面向列式存储的分布式数据库**,其设计思想来源于 Google 的 BigTable 论文。 HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。 HBase 良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能,基于数据副本机 阅读全文
posted @ 2023-06-11 19:51 _泡泡 阅读(494) 评论(0) 推荐(0) 编辑
摘要:# kafka 都有哪些特点? 高吞吐量,低延迟 可以热扩展 并发度高 具有容错性(挂的只剩1台也能正常跑) 可靠性高 # 在哪些场景下会选择 kafka? kafka的一些应用 - 日志收集:一个公司可以用kafka可以收集各种服务的log,通过kafka以统一接口服务的方式开放给各种consum 阅读全文
posted @ 2023-06-10 15:48 _泡泡 阅读(103) 评论(0) 推荐(0) 编辑
摘要:# 日志分段切分条件 日志分段文件切分包含以下4个条件,满足其一即可: 1. 当前日志分段文件的大小超过了broker端参数 `log.segment.bytes` 配置的值。`log.segment.bytes`参数的默认值为 `1073741824`,即1GB 2. 当前日志分段中消息的最小时间 阅读全文
posted @ 2023-06-09 19:48 _泡泡 阅读(237) 评论(0) 推荐(0) 编辑
摘要:# 系统架构 **主题topic和分区partition** - topic Kafka中存储数据的逻辑分类;你可以理解为数据库中“表”的概念;比如,将app端日志、微信小程序端日志、业务库订单表数据分别放入不同的topic - partition分区(提升kafka吞吐量) topic中数据的具体 阅读全文
posted @ 2023-06-08 19:50 _泡泡 阅读(306) 评论(0) 推荐(1) 编辑
摘要:# 基本概念 ## 简介 Kafka 最初是由 LinkedIn 即领英公司基于 Scala 和 Java 语言开发的分布式消息发布-订阅系统,现已捐献给Apache 软件基金会。其具有高吞吐、低延迟的特性,许多大数据实时流式处理系统比如 Storm、Spark、Flink等都能很好地与之集成。 总 阅读全文
posted @ 2023-06-07 17:17 _泡泡 阅读(588) 评论(0) 推荐(2) 编辑
摘要:# zookeeper ZooKeeper是一个开源的分布式应用程序协调服务 简单来说可以理解为zookeeper = 文件系统+监听通知机制 应用场景: 1. 集群管理、服务器状态感知 2. 分布式应用配置管理 3. 统一命名服务 4. 分布式锁 > 小总结: >1. 为客户提供写数据功能 数据不 阅读全文
posted @ 2023-06-06 19:46 _泡泡 阅读(411) 评论(0) 推荐(0) 编辑
摘要:# 缓存 ## 缓存更新方式 这是决定在使用缓存时就该考虑的问题。 - 设置缓存数据的TTL,当缓存数据失效后,如果有系统要请求,则会查询数据库并插入缓存(被动更新) 不友好 - 在各类会往mysql写入数据的系统中,植入更新缓存的逻辑(判断哪些表的数据是热点数据,那么就可以在这些表数据的更新操作逻 阅读全文
posted @ 2023-06-05 18:57 _泡泡 阅读(30) 评论(0) 推荐(0) 编辑
摘要:# 其他数据类型 ## List ### LPUSH ```sql LPUSH key value [value ...] -- 将一个或多个值 value 插入到列表 key 的表头 -- 如果有多个 value 值,那么各个 value 值按从左到右的顺序依次插入到表头: 比如说,对空列表 my 阅读全文
posted @ 2023-06-04 21:28 _泡泡 阅读(59) 评论(0) 推荐(0) 编辑
摘要:# 模拟手机验证码 需求:使用redis模拟手机验证码发送,验证码有效期60s,验证验证码输入不能超过3次,超过3次今天就没机会了 ```java //验证手机号 /** * 判断字符串是否符合手机号码格式 * 移动号段: 134 135 136 137 138 139 147 148 150 15 阅读全文
posted @ 2023-06-03 23:42 _泡泡 阅读(30) 评论(0) 推荐(0) 编辑
摘要:# Redis Redis是一个开源(BSD许可高性能的内存存储的key-value数据库! 可用作数据库,高速缓存和消息队列代理。它支持字符串、哈希表、列表(List)、集合(Set)、有序集合(Ordered Sets),位图(bitmap),hyperloglogs,GEO等数据类型。内置复制 阅读全文
posted @ 2023-06-02 20:14 _泡泡 阅读(91) 评论(0) 推荐(0) 编辑
摘要:# 修改表 ## 修改表名 ```SQL -- 1.将名为 table1 的表修改为 table2 ALTER TABLE table1 RENAME table2; -- 示例 ALTER TABLE aggregate_test RENAME aggregate_test1; -- 2.将表 e 阅读全文
posted @ 2023-06-01 19:09 _泡泡 阅读(4239) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示