01 2022 档案

摘要:Kafka诞生Kafka由 linked-in 开源kafka-即是解决上述这类问题的一个框架,它实现了生产者和消费者之间的无缝连接。kafka-高产出的分布式消息系统(A high-throughput distributed messaging system) Kafka的特性 高吞吐量、低延迟 阅读全文
posted @ 2022-01-26 23:45 软工新人 阅读(24) 评论(0) 推荐(0) 编辑
摘要:Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流 阅读全文
posted @ 2022-01-25 23:58 软工新人 阅读(19) 评论(0) 推荐(0) 编辑
摘要:特点:flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。支持在日志系统中制定各类数据发送方,用于收集数据。同时,flume提供对数据进行简单处理,并写到各种数据接收方(比如文本、hdfs、hbase等)的能力。flume的数据流由事件贯穿始终。事件是flume的基本数据单位,它携 阅读全文
posted @ 2022-01-24 23:44 软工新人 阅读(27) 评论(0) 推荐(0) 编辑
摘要:Multiplexing Channel Selector -Multiplexing Channel Selector多路复用选择器根据event的头信息中不 同键值数据来判断Event应该被写入到哪个Channel中 三种级别的Channel,分别是必选channle、可选channel、默认c 阅读全文
posted @ 2022-01-20 21:29 软工新人 阅读(31) 评论(0) 推荐(0) 编辑
摘要:Selector选择器 Source将event写入到Channel之前调用拦截器,如果配置了Interceptor拦截器,则Selector在拦截器全部处理完之后调用。通过 selector决定event写入Channel的方式 内置Replicating Channel Selector复制Ch 阅读全文
posted @ 2022-01-19 21:29 软工新人 阅读(24) 评论(0) 推荐(0) 编辑
摘要:Host Interceptor Flume使用主机戳拦截器在Event头信息中添加主机名称或者IP 主机拦截器的作用:比如Source将Event按照主机名称写入到不同的Channel中便于后续的Sink对不同Channnel中的数据分开处理 关键参数说明: type:拦截器类型为host pre 阅读全文
posted @ 2022-01-18 21:29 软工新人 阅读(33) 评论(0) 推荐(0) 编辑
摘要:Sink组件- HDFS Sink HDFS Sink将Event写入到HDFS中持久化存储 HDFS Sink提供了强大的时间戳转义功能,根据Event头信息中的 timestamp时间戳信息转义成日期格式,在HDFS中以日期目录分层存储 关键参数信息说明如下: type:Sink类型为hdfs。 阅读全文
posted @ 2022-01-16 20:54 软工新人 阅读(25) 评论(0) 推荐(0) 编辑
摘要:Sink组件 Sink:从Channel消费event,输出到外部存储,或者输出到下一个阶段的agent 一个Sink只能从一个Channel中消费event 当Sink写出event成功后,就会向Channel提交事务。Sink 事务提交成功,处理完成的event将会被Channel删除。否 则C 阅读全文
posted @ 2022-01-15 20:54 软工新人 阅读(27) 评论(0) 推荐(0) 编辑
摘要:Channel组件- File Channel File Channel:将event写入到磁盘文件中,与Memory Channel相比存 储容量大,无数据丢失风险。 File Channle数据存储路径可以配置多磁盘文件路径,提高写入文件性能 Flume将Event顺序写入到File Chann 阅读全文
posted @ 2022-01-14 20:11 软工新人 阅读(27) 评论(0) 推荐(0) 编辑
摘要:Source 组件 -Taildir source 监听一个文件夹或者文件,通过正则表达式匹配需要监听的 数据源文件,Taildir Source通过将监听的文件位置写入到文件中来实现断点续传,并且能够保证没有重复数据的读取. 重要参数 type:source类型TAILDIR positionFi 阅读全文
posted @ 2022-01-12 20:10 软工新人 阅读(35) 评论(0) 推荐(0) 编辑
摘要:Source:对接各种外部数据源,将收集到的事件发送到Channel中,一个source可以向多个channel发送event,Flume内置非常丰富的Source,同时用户可以自定义Source Source类型Type用途 Avro Source avro 启动一个Avro Server,可与上 阅读全文
posted @ 2022-01-10 21:23 软工新人 阅读(20) 评论(0) 推荐(0) 编辑
摘要:Flume基本组件 Event:消息的基本单位,有header和body组成 Agent:JVM进程,负责将一端外部来源产生的消息转 发到另一端外部的目的地 Source:从外部来源读入event,并写入channel Channel:event暂存组件,source写入后,event将会 一直保存 阅读全文
posted @ 2022-01-09 21:23 软工新人 阅读(28) 评论(0) 推荐(0) 编辑
摘要:1.Flume特点 Flume是一个分布式的、可靠的、高可用的海量日志采集 、聚合和传输的系统 数据流模型:Source-Channel-Sink 事务机制保证消息传递的可靠性 内置丰富插件,轻松与其他系统集成 Java实现,优秀的系统框架设计,模块分明,易于开发 2.Flume原型图 Flume原 阅读全文
posted @ 2022-01-08 21:21 软工新人 阅读(23) 评论(0) 推荐(0) 编辑
摘要:大数据预处理,指的是在进行数据分析之前,先对采集到的原始数据所进行的诸如“清洗、填补、平滑、合并、规格化、一致性检验”等一系列操作,旨在提高数据质量,为后期分析工作奠定基础。数据预处理主要包括四个部分:数据清理、数据集成、数据转换、数据规约。 数据清理:指利用ETL等清洗工具,对有遗漏数据(缺少感兴 阅读全文
posted @ 2022-01-05 22:31 软工新人 阅读(35) 评论(0) 推荐(0) 编辑
摘要:其实想要知道大数据有哪些核心技术很简单,无非三个过程:取数据、算数据、用数据。这么说可能还是有人觉得太空泛,简单来说从大数据的生命周期来看,无外乎四个方面:大数据采集、大数据预处理、大数据存储、大数据分析,共同组成了大数据生命周期里最核心的技术。 大数据采集,即对各种来源的结构化和非结构化海量数据, 阅读全文
posted @ 2022-01-04 22:30 软工新人 阅读(26) 评论(0) 推荐(0) 编辑
摘要:机器学习最早的发展是Thomas Bayes 在1783年发表的同名理论,贝斯定理发现了给定有关类似事件的历史数据的事件的可能性。这是机器学习的贝叶斯分支的基础,它寻求根据以前的信息寻找最可能发生的事件。换句话说,Bayes定理只是一个从经验中学习的数学方法,是机器学习的基本思想。 几个世纪后,19 阅读全文
posted @ 2022-01-03 22:44 软工新人 阅读(42) 评论(0) 推荐(0) 编辑
摘要:第二种监督学习是回归。在回归中,机器使用先前的(标记的)数据来预测未来。天气应用是回归的好例子。使用气象事件的历史数据(即平均气温、湿度和降水量),你的手机天气应用程序可以查看当前天气,并在未来的时间内对天气进行预测。 在无监督学习中,数据是无标签的。由于大多数真实世界的数据都没有标签,这些算法特别 阅读全文
posted @ 2022-01-02 22:29 软工新人 阅读(28) 评论(0) 推荐(0) 编辑
摘要:机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。有三种主要类型的机器学习:监督学习、非监督学习和强化学习,所有这些都有其特定的优点和缺点。 监督学习涉及一组标记数据。计算机可以使 阅读全文
posted @ 2022-01-01 22:29 软工新人 阅读(37) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示