2017 年 10月随笔档案 - 天戈朱

10 2017 档案

ML: 降维算法-LDA

摘要：判别分析（discriminant analysis）是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则，并通过预测变量来为未知类别的数据进行分类。判别分析的方法大体上有三类，即Fisher判别、Bayes判别和距离判别。 Fisher判别思想是投影降维，使多维问题简化为一维问题来处理。阅读全文

posted @ 2017-10-28 08:51 天戈朱阅读(1371) 评论(0) 推荐(0) 编辑

DataFlow编程模型与Spark Structured streaming

摘要：流式（streaming）和批量（ batch）：流式数据，实际上更准确的说法应该是unbounded data(processing)，也就是无边界的连续的数据的处理；对应的批量计算，更准确的说法是bounded data(processing)，亦即有明确边界的数据的处理。近年来流式计算框架编阅读全文

posted @ 2017-10-14 18:40 天戈朱阅读(3648) 评论(0) 推荐(0) 编辑

Kafka Stream

摘要：Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature（当前：1.0.0-rc0，参见：https://github.com/apache/kafka/releases）,它提供了对存储于Kafka内的数据进行流式处理和分析的功能。其主要特点如下： Kafka S 阅读全文

posted @ 2017-10-14 18:40 天戈朱阅读(2042) 评论(0) 推荐(2) 编辑

Streaming SQL for Apache Kafka

摘要：KSQL是基于Kafka的Streams API进行构建的流式SQL引擎，KSQL降低了进入流处理的门槛，提供了一个简单的、完全交互式的SQL接口，用于处理Kafka的数据。 KSQL是一套基于Apache 2.0许可开源的、分布式的、可扩展的、可靠的和实时的组件。支持多种流式操作，包括聚合（agg 阅读全文

posted @ 2017-10-14 18:40 天戈朱阅读(644) 评论(0) 推荐(0) 编辑

开源数据采集组件比较: scribe、chukwa、kafka、flume

摘要：针对每天TB级的数据采集，一般而言，这些系统需要具有以下特征：构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水平扩展。从设计架构，负载均衡，可扩展性和容错性等方面对阅读全文

posted @ 2017-10-12 08:36 天戈朱阅读(4745) 评论(0) 推荐(0) 编辑

天戈朱

公告

最新随笔

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜