博客园  :: 首页  :: 联系 :: 管理
上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 36 下一页

2017年11月10日

摘要: 数据科学是一个范围很广的学科。机器学习和统计学都是数据科学的一部分。机器学习中的学习一词表示算法依赖于一些数据(被用作训练集)来调整模型或算法的参数。这包含了许多的技术,比如回归、朴素贝叶斯或监督聚类。但不是所有的技术都适合机器学习。例如有一种统计和数据科学技术就不适合——无监督聚类,该技术是在没有 阅读全文

posted @ 2017-11-10 08:25 天戈朱 阅读(727) 评论(0) 推荐(0) 编辑

2017年10月28日

摘要: 判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。判别分析的方法大体上有三类,即Fisher判别、Bayes判别和距离判别。 Fisher判别思想是投影降维,使多维问题简化为一维问题来处理。 阅读全文

posted @ 2017-10-28 08:51 天戈朱 阅读(1332) 评论(0) 推荐(0) 编辑

2017年10月14日

摘要: 流式(streaming)和批量( batch):流式数据,实际上更准确的说法应该是unbounded data(processing),也就是无边界的连续的数据的处理;对应的批量计算,更准确的说法是bounded data(processing),亦即有明确边界的数据的处理。 近年来流式计算框架编 阅读全文

posted @ 2017-10-14 18:40 天戈朱 阅读(3627) 评论(0) 推荐(0) 编辑

摘要: Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature(当前:1.0.0-rc0,参见:https://github.com/apache/kafka/releases),它提供了对存储于Kafka内的数据进行流式处理和分析的功能。其主要特点如下: Kafka S 阅读全文

posted @ 2017-10-14 18:40 天戈朱 阅读(2020) 评论(0) 推荐(2) 编辑

摘要: KSQL是基于Kafka的Streams API进行构建的流式SQL引擎,KSQL降低了进入流处理的门槛,提供了一个简单的、完全交互式的SQL接口,用于处理Kafka的数据。 KSQL是一套基于Apache 2.0许可开源的、分布式的、可扩展的、可靠的和实时的组件。支持多种流式操作,包括聚合(agg 阅读全文

posted @ 2017-10-14 18:40 天戈朱 阅读(633) 评论(0) 推荐(0) 编辑

2017年10月12日

摘要: 针对每天TB级的数据采集,一般而言,这些系统需要具有以下特征: 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。 从设计架构,负载均衡,可扩展性和容错性等方面对 阅读全文

posted @ 2017-10-12 08:36 天戈朱 阅读(4665) 评论(0) 推荐(0) 编辑

2017年9月7日

摘要: 转载至 大数据杂谈 (BigdataTina2016),同时参考学习 http://www.cnblogs.com/barrywxx/p/4257166.html 进行整理。 使用SQL 引擎一词是有点随意的。例如Hive 不是一个引擎,它的框架使用MapReduce、TeZ 或者Spark 引擎去 阅读全文

posted @ 2017-09-07 06:58 天戈朱 阅读(7674) 评论(0) 推荐(0) 编辑

摘要: 转载至: http://lxw1234.com/archives/2015/04/101.htm mark - 参考学习 环境配置: hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node) hbase-0.94.6-cdh4.3.0 (4 nodes,maxHea 阅读全文

posted @ 2017-09-07 06:56 天戈朱 阅读(543) 评论(0) 推荐(0) 编辑

2017年9月6日

摘要: 华为2015年7月20日在O'Reilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式开源。Spark SQL on HBase package 项目又名 Astro,端到端整合了 Spark,Spark SQL和HB 阅读全文

posted @ 2017-09-06 22:42 天戈朱 阅读(2697) 评论(0) 推荐(0) 编辑

2017年8月27日

摘要: 局部线性嵌入 (Locally linear embedding)是一种非线性降维算法,它能够使降维后的数据较好地保持原有 流形结构 。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。 如下图,使用LLE将三维数据(b)映射到二维(c)之后,映射后的数据 阅读全文

posted @ 2017-08-27 18:10 天戈朱 阅读(2821) 评论(0) 推荐(0) 编辑

上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 36 下一页