摘要:
版本:2019最新专业版 阅读全文
摘要:
1.1 flume(日志收集系统) 1.1.1 flume介绍 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 flu 阅读全文
摘要:
1.1 kafka(分布式发布订阅消息系统) 1.1.1 产品介绍 流媒体平台有三个关键功能: 发布和订阅记录流,类似于消息队列或企业消息系统。 以容错的持久方式存储记录流。 在记录发生时处理记录流。 Kafka通常用于两大类应用程序: 构建实时流数据管道,在系统或应用程序之间可靠地获取数据 构建实 阅读全文
摘要:
1.1 mesos(分布式资源管理器) Mesos是一个开源的资源管理系统,可以对集群中的资源做弹性管理。 Mesos中包含四类主要的服务(实际上是一个socketserver—服务端口),它们分别是Mesos Master,Mesos Slave(从服务),SchedulerProcess(调度进 阅读全文
摘要:
1.1 yarn(分布式资源管理器) 1.1.1 yarn是什么? yarn是MapReduce第二代,将jobtracker重构呈功能分离成单独的组件。Yarn可以看作一个集群操作系统,他为应用程序提供了基本的服务来更好的利用大的、动态的、并行的基础设施资源。用任何语言编写的应用程序都能顺利用任意 阅读全文
摘要:
1.1 zookeeper(分布式协作服务) ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 阅读全文
摘要:
1.1 机器学习的分类 1.1.1 监督学习 定义:从成对的已经标记好的输入和输出经验数据作为一个输入进行学习,用来预测输出结果,是从有正确答案的例子中学习。 任务分类 定义:将数据映射到预先定义的群组或类(历史数据的特征)。算法要求基于数据属性值来定义类别,把具体某些特征的数据项映射到给定的某个类 阅读全文