上一页 1 2 3 4 5 6 7 ··· 11 下一页
摘要: A.1 编译Hadoop A.1.1 搭建环境 第一步安装并设置maven 1. 下载maven安装包 建议安装3.0以上版本(由于Spark2.0编译要求Maven3.3.9及以上版本),本次安装选择的是maven3.3.9的二进制包,下载地址如下: http://mirror.bit.edu.c 阅读全文
posted @ 2016-12-19 08:54 shishanyuan 阅读(1346) 评论(0) 推荐(0) 编辑
摘要: 本书中所使用到的测试数据、代码、安装包及本书附录放在百度盘提供下载 ,链接: https://pan.baidu.com/s/1LP6PKGzIWQzF8e-dTklxkg 提取码: it28 为什么要写这本书 在过去的十几年里,由于计算机普遍应用和互联网的普及数据呈现了爆发式增长,在这个背景下Do 阅读全文
posted @ 2016-12-18 22:06 shishanyuan 阅读(16330) 评论(29) 推荐(2) 编辑
摘要: 我们很荣幸地宣布,自7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点。 本文总结了Spark 2.0的三大主题:更简单、更快速、更智能,另有Spark 2.0内容的文章汇总介绍了更 阅读全文
posted @ 2016-07-29 09:59 shishanyuan 阅读(3023) 评论(4) 推荐(2) 编辑
摘要: 【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Tachyon介绍1.1Tachyon简介随着实时计算的需求日益增多,分布式内存计算也持续升温,怎样将海量数据近乎实时地处理,或者说怎样把离线批处理的速度再提升到一个新的高度是当前研究的重点。近年来,内... 阅读全文
posted @ 2015-09-16 08:57 shishanyuan 阅读(5798) 评论(5) 推荐(5) 编辑
摘要: Apache Spark社区2015年9月9日发布了1.5版本,该版本由230+开发人员和80+机构参与,修复了1400多个补丁,该版本可以通过 http://spark.apache.org/downloads.html进行下载。Spark1.5中最主要的修改内容是为了提升Spark性能、可用性和... 阅读全文
posted @ 2015-09-15 16:58 shishanyuan 阅读(3156) 评论(3) 推荐(1) 编辑
摘要: 【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、GraphX介绍1.1GraphX应用背景Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知·,... 阅读全文
posted @ 2015-09-14 08:59 shishanyuan 阅读(55909) 评论(1) 推荐(9) 编辑
摘要: 【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、MLlib实例1.1聚类实例1.1.1算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之... 阅读全文
posted @ 2015-09-10 08:41 shishanyuan 阅读(68268) 评论(23) 推荐(9) 编辑
摘要: 【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、机器学习概念1.1机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通... 阅读全文
posted @ 2015-09-09 07:05 shishanyuan 阅读(46832) 评论(7) 推荐(3) 编辑
摘要: 【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、实例演示1.1流数据模拟器1.1.1流数据说明在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号... 阅读全文
posted @ 2015-09-07 07:01 shishanyuan 阅读(27455) 评论(14) 推荐(4) 编辑
摘要: 【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Spark Streaming简介1.1概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、... 阅读全文
posted @ 2015-09-01 06:51 shishanyuan 阅读(106968) 评论(7) 推荐(13) 编辑
上一页 1 2 3 4 5 6 7 ··· 11 下一页