大数据

spark-cdh学习

摘要：Spark: 1.Apache Spark是用于大规模数据处理的统一分析引擎 2.一款分布式内存计算的分析引擎源数据层: 1.sdk日志埋点 2.日志文件:爬虫日志,业务日志 3.关系型数据库:mysql,oracle等数据采集层: 1.离线:flume,sqoop,Nifi 2.实时:file 阅读全文

posted @ 2024-01-07 22:39 米歪歪阅读(24) 评论(0) 推荐(0) 编辑

摘要：1.大数据特点:大,多,值,快,信,也称为5V 2.ETL是英文的缩写 Extract >Transform >Load 数据抽取 >数据转换 >数据加载 3.ETL的工作流程: 4.Kettle(水壶) >PDI 5. 阅读全文

posted @ 2024-01-01 09:22 米歪歪阅读(12) 评论(0) 推荐(0) 编辑

大数据技术框架

摘要：大数据技术框架: 1.存储引擎 1>分布式文件系统HDFS:block,replication 2>NoSQL数据库:Hbase:Table,region 实时存储引擎 3>分布式消息队列Kafka:Topic,Partition 实时存储引擎 4>分布式搜索引擎:Elasticserarch:in 阅读全文

posted @ 2024-01-01 09:22 米歪歪阅读(105) 评论(0) 推荐(0) 编辑

zookeeper的api客户端

摘要：curator 1.创建连接: 2. 3. 阅读全文

posted @ 2023-12-31 06:08 米歪歪阅读(2) 评论(0) 推荐(0) 编辑

clickhouse操作命令

摘要：集群配置文件1: 集群配置文件2: 客户端登录clickhouse: 数据库操作与关系型数据库类似创建数据库在集群上: zookeeper启动: 配置用户名和密码: 阅读全文

posted @ 2023-12-30 12:36 米歪歪阅读(29) 评论(0) 推荐(0) 编辑

GPDB学习

摘要：1.GreePlum:关系型数据库功能:处理海量数据产生背景:基于mpp架构衍生出来的与oracle,mysql差异 1>GreePlum是为大数据而生,处理海量数据 2.MPP是处理大规模数据的计算架构,允许在大规模数据集实现水平扩展纵向扩展:是指增加硬件特点: 1.分布式存储(与hdf 阅读全文

posted @ 2023-12-30 07:52 米歪歪阅读(35) 评论(0) 推荐(0) 编辑

k8s学习

摘要：容器化技术优点: 1.自我修复 2.弹性伸缩 3.服务发现 4.负载均衡 5.版本回退 6.存储编排 k8s构成: 1.控制节点:集群的控制平面,负责集群的决策 1>ApiServer 2>Schedule 3>ControllerManager 4>Etcd 2.工作节点:集群的数据平面,负责为容阅读全文

posted @ 2023-12-27 21:22 米歪歪阅读(2) 评论(0) 推荐(0) 编辑

大数据学习

摘要：大数据: 1.分为2类方向 1.实时方向 2.离线方向 2.3个技术栈: 1.hdoop技术栈 2.spark技术栈 3.flink技术栈 3.hadoop和spark是技能体系 4.生成ssh秘钥命令: ssh-keygen -t rsa -b 4096 5.每天机器之间建立互信,免密登录 ssh 阅读全文

posted @ 2023-12-25 14:04 米歪歪阅读(20) 评论(0) 推荐(0) 编辑

miwaiwai

导航

公告

随笔分类 - 大数据