摘要: kafka是一个分布式的基于发布/订阅模式的消息队列,只要应用于大数据实时处理领域 消息队列的两种模式: 点对点模式(一对一 消费者主动拉取数据,消息收到后消息清除) 发布/订阅的模式(一对多 消费者消费数据后不会清除数据) kafka基础架构(去中心化) producer:消息生产者,就是向kaf 阅读全文
posted @ 2022-11-29 21:37 先生小凯 阅读(57) 评论(0) 推荐(0) 编辑
摘要: HDFS是一个分布式文件存储系统,适合一次写入,多次写出,且不支持文件修改 结构: NameNode(NN):就是master 他是一个管理者 1、管理HDFS的命名空间 2、配置副本策略 3、管理数据块映射信息 4、处理客户端读写请求 DataNode(DN):就是salve NameNode下达 阅读全文
posted @ 2022-11-28 21:58 先生小凯 阅读(147) 评论(0) 推荐(0) 编辑
摘要: MapReduce是一个分布式运算程序的编程框架,其核心功能是将用户编写的业务逻辑代码和自身的组件整合成 一个完整的分布式运算程序 并发运行在一个hadoop集群上 优点: 1、易于编程 实现一些简单的接口就可以实现一个分布式车程序 2、良好的扩展性 可以通过简单的扩充机器来扩展计算能力 3、高容错 阅读全文
posted @ 2022-11-28 21:52 先生小凯 阅读(107) 评论(0) 推荐(0) 编辑
摘要: Hadoop是一个支持海量数据的分布式存储和分布式计算的平台 包含: HDFS YARN MapReduce 分布式管理系统(HDFS) 主要就是把数据存放在多态服务器上 是MapReduce的基础 文件切分 文件存放在一个磁盘上效率是最低的 读取效率低 文件特别大会超出单击的存储范围 文件磁盘上以 阅读全文
posted @ 2022-11-28 21:41 先生小凯 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 机器学习 构建机器学习的第一步:数据特征工程,将数据转化成机器学习的模型 //构建向量 基础部分 Spark中一共有两类向量:稠密向量,稀疏向量 1 稠密向量 2 val denseVec: linalg.Vector = Vectors.dense(Array(1..0,2.0,3.0,4.0,5 阅读全文
posted @ 2022-11-25 21:11 先生小凯 阅读(121) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示