摘要:判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。判别分析的方法大体上有三类,即Fisher判别、Bayes判别和距离判别。 Fisher判别思想是投影降维,使多维问题简化为一维问题来处理。
阅读全文
posted @ 2017-10-28 08:51
10 2017 档案
摘要:判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。判别分析的方法大体上有三类,即Fisher判别、Bayes判别和距离判别。 Fisher判别思想是投影降维,使多维问题简化为一维问题来处理。
阅读全文
posted @ 2017-10-28 08:51
摘要:流式(streaming)和批量( batch):流式数据,实际上更准确的说法应该是unbounded data(processing),也就是无边界的连续的数据的处理;对应的批量计算,更准确的说法是bounded data(processing),亦即有明确边界的数据的处理。 近年来流式计算框架编
阅读全文
posted @ 2017-10-14 18:40
摘要:Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature(当前:1.0.0-rc0,参见:https://github.com/apache/kafka/releases),它提供了对存储于Kafka内的数据进行流式处理和分析的功能。其主要特点如下: Kafka S
阅读全文
posted @ 2017-10-14 18:40
摘要:KSQL是基于Kafka的Streams API进行构建的流式SQL引擎,KSQL降低了进入流处理的门槛,提供了一个简单的、完全交互式的SQL接口,用于处理Kafka的数据。 KSQL是一套基于Apache 2.0许可开源的、分布式的、可扩展的、可靠的和实时的组件。支持多种流式操作,包括聚合(agg
阅读全文
posted @ 2017-10-14 18:40
摘要:针对每天TB级的数据采集,一般而言,这些系统需要具有以下特征: 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。 从设计架构,负载均衡,可扩展性和容错性等方面对
阅读全文
posted @ 2017-10-12 08:36
|
||