miwaiwai

导航

随笔分类 -  大数据

spark-cdh学习
摘要:Spark: 1.Apache Spark是用于大规模数据处理的统一分析引擎 2.一款分布式内存计算的分析引擎 源数据层: 1.sdk日志埋点 2.日志文件:爬虫日志,业务日志 3.关系型数据库:mysql,oracle等 数据采集层: 1.离线:flume,sqoop,Nifi 2.实时:file 阅读全文

posted @ 2024-01-07 22:39 米歪歪 阅读(24) 评论(0) 推荐(0) 编辑

大数据
摘要:1.大数据特点:大,多,值,快,信,也称为5V 2.ETL是英文的缩写 Extract >Transform >Load 数据抽取 >数据转换 >数据加载 3.ETL的工作流程: 4.Kettle(水壶) >PDI 5. 阅读全文

posted @ 2024-01-01 09:22 米歪歪 阅读(12) 评论(0) 推荐(0) 编辑

大数据技术框架
摘要:大数据技术框架: 1.存储引擎 1>分布式文件系统HDFS:block,replication 2>NoSQL数据库:Hbase:Table,region 实时存储引擎 3>分布式消息队列Kafka:Topic,Partition 实时存储引擎 4>分布式搜索引擎:Elasticserarch:in 阅读全文

posted @ 2024-01-01 09:22 米歪歪 阅读(105) 评论(0) 推荐(0) 编辑

zookeeper的api客户端
摘要:curator 1.创建连接: 2. 3. 阅读全文

posted @ 2023-12-31 06:08 米歪歪 阅读(2) 评论(0) 推荐(0) 编辑

clickhouse操作命令
摘要:集群配置文件1: 集群配置文件2: 客户端登录clickhouse: 数据库操作与关系型数据库类似 创建数据库在集群上: zookeeper启动: 配置用户名和密码: 阅读全文

posted @ 2023-12-30 12:36 米歪歪 阅读(29) 评论(0) 推荐(0) 编辑

GPDB学习
摘要:1.GreePlum:关系型数据库 功能:处理海量数据 产生背景:基于mpp架构衍生出来的 与oracle,mysql差异 1>GreePlum是为大数据而生,处理海量数据 2.MPP是处理大规模数据的计算架构,允许在大规模数据集实现水平扩展 纵向扩展:是指增加硬件 特点: 1.分布式存储(与hdf 阅读全文

posted @ 2023-12-30 07:52 米歪歪 阅读(35) 评论(0) 推荐(0) 编辑

k8s学习
摘要:容器化技术优点: 1.自我修复 2.弹性伸缩 3.服务发现 4.负载均衡 5.版本回退 6.存储编排 k8s构成: 1.控制节点:集群的控制平面,负责集群的决策 1>ApiServer 2>Schedule 3>ControllerManager 4>Etcd 2.工作节点:集群的数据平面,负责为容 阅读全文

posted @ 2023-12-27 21:22 米歪歪 阅读(2) 评论(0) 推荐(0) 编辑

大数据学习
摘要:大数据: 1.分为2类方向 1.实时方向 2.离线方向 2.3个技术栈: 1.hdoop技术栈 2.spark技术栈 3.flink技术栈 3.hadoop和spark是技能体系 4.生成ssh秘钥命令: ssh-keygen -t rsa -b 4096 5.每天机器之间建立互信,免密登录 ssh 阅读全文

posted @ 2023-12-25 14:04 米歪歪 阅读(20) 评论(0) 推荐(0) 编辑