摘要:
http://blog.csdn.net/zjsghww/article/details/51638126 首先,C4.5是决策树算法的一种。决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去。相当于做一个投影,c=f(n),将样本经过一种变换赋予一种类别标签。决策树为了达 阅读全文
摘要:
http://blog.csdn.net/ychenfeng/article/details/74980531(还没有转全) Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统 阅读全文
摘要:
https://www.cnblogs.com/forsaken627/articles/6512379.html Elasticsearch template Elasticsearch存在一个关键问题就是索引的设置及字段的属性指定,最常见的问题就是,某个字段我们并不希望ES对其进行分词,但如果使 阅读全文
摘要:
Elasticsearch学习之深入聚合分析四 案例实战 https://www.cnblogs.com/sunfie/p/7101749.html 使用 Elasticsearch 构建快速数据分析系统 http://bbs.umeng.com/thread-12252-1-1.html 阅读全文
摘要:
Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景,以及架构进行简单介绍。 背景——功能上的空白 Hadoop生态系统有很 阅读全文
摘要:
http://shiyanjun.cn/archives/526.html Impala与HBase整合实践 https://www.cnblogs.com/hd3013779515/tag/Storm/ Storm入门14章 阅读全文
摘要:
Elasticsearch 架构原理 http://www.cnblogs.com/valor-xh/p/6096072.html Elasticsearch学习总结--原理篇 http://www.cnblogs.com/valor-xh/p/6096083.html 阅读全文
摘要:
在Elasticsearch中有许多术语和概念 1. 核心概念 Elasticsearch集群可以包含多个索引(indices)(数据库),每一个索引可以包含多个类型(types)(表),每一个类型包含多个文档(documents)(行),然后每个文档包含多个字段(Fields)(列) (1)Nea 阅读全文
摘要:
Kudu,支持快速分析的新型Hadoop存储系统:https://www.cnblogs.com/wuxian11/p/6478581.html 阅读全文