Big Data (Suro, Kafka, Hadoop, Spark, ES, Druid) - 随笔分类 - Jonson Li

【原创 Hadoop&Spark 动手实践 12】Spark MLLib 基础、应用与信用卡欺诈检测系统动手实践

摘要：【原创 Hadoop&Spark 动手实践 12】Spark MLLib 基础、应用与信用卡欺诈检测系统动手实践阅读全文

posted @ 2017-05-22 10:31 Jonson Li 阅读(430) 评论(0) 推荐(0)

【原创 Hadoop&Spark 动手实践 13】Spark综合案例：简易电影推荐系统

摘要：【原创 Hadoop&Spark 动手实践 13】Spark综合案例：简易电影推荐系统阅读全文

posted @ 2017-05-22 10:31 Jonson Li 阅读(581) 评论(0) 推荐(0)

【原创 Hadoop&Spark 动手实践 9】Spark SQL 程序设计基础与动手实践（上）

摘要：【原创 Hadoop&Spark 动手实践 9】SparkSQL程序设计基础与动手实践（上）目标： 1. 理解Spark SQL最基础的原理 2. 可以使用Spark SQL完成一些简单的数据分析任务 3. 可以利用Spark SQL完成一个完整的案例阅读全文

posted @ 2017-05-22 10:30 Jonson Li 阅读(199) 评论(0) 推荐(0)

【原创 Hadoop&Spark 动手实践 11】Spark Streaming 应用与动手实践

摘要：【原创 Hadoop&Spark 动手实践 11】Spark Streaming 应用与动手实践目标： 1. 掌握Spark Streaming的基本原理 2. 完成Spark Streaming最简单的演练和动手实验 3. 完成一个完整的Spark Streaming的实际案例（用户手机信息实时阅读全文

posted @ 2017-05-22 10:30 Jonson Li 阅读(1327) 评论(0) 推荐(0)

【原创 Hadoop&Spark 动手实践 8】Spark 应用经验、调优与动手实践

摘要：【原创 Hadoop&Spark 动手实践 7】Spark 应用经验、调优与动手实践目标： 1. 了解Spark 应用经验与调优的理论与方法，如果遇到Spark调优的事情，有理论思考框架。 2. 把调优的过程，进行动手实践，完成一些调优的优化过程，加深理解。 3. 做一个完整的调优的案例，再次加深阅读全文

posted @ 2017-05-22 10:30 Jonson Li 阅读(342) 评论(0) 推荐(0)

【原创 Hadoop&Spark 动手实践 10】Spark SQL 程序设计基础与动手实践（下）

摘要：【原创 Hadoop&Spark 动手实践 10】Spark SQL 程序设计基础与动手实践（下）目标： 1. 深入理解Spark SQL 程序设计的原理 2. 通过简单的命令来验证Spark SQL的运行原理 3. 通过一个完整的案例来验证Spark SQL的运行原理，自己实际动手来进行掌握 4 阅读全文

posted @ 2017-05-22 10:30 Jonson Li 阅读(187) 评论(0) 推荐(0)

【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示

摘要：【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示 Spark 编程实例和简易电影分析系统的编写目标： 1. 掌握理论：了解Spark编程的理论基础 2. 搭建开发环境：自己可以搭建Spark程序开发的环境 3. 动手实践简单的示例：完成一些简单的动手实验，可以帮助Sp 阅读全文

posted @ 2017-05-22 10:29 Jonson Li 阅读(640) 评论(0) 推荐(0)

【原创 Hadoop&Spark 动手实践 7】Spark 计算引擎剖析与动手实践

摘要：【原创 Hadoop&Spark 动手实践 7】Spark计算引擎剖析与动手实践目标： 1. 理解Spark计算引擎的理论知识 2. 动手实践更深入的理解Spark计算引擎的细节 3. 通过编程案例加深理解阅读全文

posted @ 2017-05-22 10:29 Jonson Li 阅读(211) 评论(0) 推荐(0)

【原创 Hadoop&Spark 动手实践 5】Spark 基础入门，集群搭建以及Spark Shell

摘要：Spark 基础入门，集群搭建以及Spark Shell 主要借助Spark基础的PPT，再加上实际的动手操作来加强概念的理解和实践。 Spark 安装部署理论已经了解的差不多了，接下来是实际动手实验：练习1 利用Spark Shell（本机模式）完成WordCount spark-shell 阅读全文

posted @ 2017-05-13 17:58 Jonson Li 阅读(454) 评论(0) 推荐(0)

【原创 Hadoop&Spark 动手实践 4】Hadoop2.7.3 YARN原理与动手实践

摘要：简介 Apache Hadoop 2.0 包含 YARN，它将资源管理和处理组件分开。基于 YARN 的架构不受 MapReduce 约束。本文将介绍 YARN，以及它相对于 Hadoop 中以前的分布式处理层的一些优势。本文将了解如何使用 YARN 的可伸缩性、效率和灵活性增强您的集群。回页首阅读全文

posted @ 2017-05-11 09:52 Jonson Li 阅读(898) 评论(-1) 推荐(0)

【转载】MapReduce编程 Intellij Idea配置MapReduce编程环境

摘要：目录(?)[-] 一软件环境二创建maven工程三添加maven依赖四配置log4j 五启动Hadoop 六运行WordCount从本地读取文件七运行WordCount从HDFS读取文件八代码下载目录(?)[-] 介绍如何在Intellij Idea中通过创建maven工程配置MapRe 阅读全文

posted @ 2017-05-09 23:32 Jonson Li 阅读(2428) 评论(0) 推荐(0)

【转载】Hadoop 2.7.3 和Hbase 1.2.4安装教程

摘要：转载地址：http://blog.csdn.net/napoay/article/details/54136398 目录(?)[+] 转载地址：http://blog.csdn.net/napoay/article/details/54136398 目录(?)[+] 一、机器环境系统：MAC OS 阅读全文

posted @ 2017-05-09 23:28 Jonson Li 阅读(1555) 评论(0) 推荐(0)

【原创 Hadoop&Spark 动手实践 3】Hadoop2.7.3 MapReduce理论与动手实践

摘要：开始聊MapReduce，MapReduce是Hadoop的计算框架，我学Hadoop是从Hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关，我开始学习某一套技术总是想着这套技术到底能干什么，只有当我真正理解了这套技阅读全文

posted @ 2017-05-09 12:12 Jonson Li 阅读(1018) 评论(1) 推荐(0)

【转载 Hadoop&Spark 动手实践 2】Hadoop2.7.3 HDFS理论与动手实践

摘要：简介 HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。 HDFS有很多特点： ① 保存多个副本，且提供容错机制，副本丢失阅读全文

posted @ 2017-05-09 00:27 Jonson Li 阅读(566) 评论(0) 推荐(0)

【转载】Hadoop官方文档翻译——HDFS Architecture 2.7.3

摘要：HDFS Architecture HDFS Architecture（HDFS 架构） Introduction（简介） Assumptions and Goals（假设和目标） Hardware Failure（硬件失效是常态） Streaming Data Access（支持流式访问） Lar 阅读全文

posted @ 2017-05-08 12:20 Jonson Li 阅读(388) 评论(0) 推荐(0)

【原创 Hadoop&Spark 动手实践 1】Hadoop2.7.3 安装部署实践

摘要：目录：第一部分：操作系统准备工作： 1. 安装部署CentOS7.3 1611 2. CentOS7软件安装（net-tools, wget, vim等） 3. 更新CentOS7的Yum源，更新软件速度更快 4. CentOS 用户配置，Sudo授权第二部分：Java环境准备 1. JDK1. 阅读全文

posted @ 2017-05-07 23:48 Jonson Li 阅读(700) 评论(0) 推荐(0)

【Spark深入学习 -16】官网学习SparkSQL

摘要：本节内容 1.概览 1.1 Spark SQL 1.2 DatSets和DataFrame2.动手干活 2.1 契入点：SparkSession 2.2 创建DataFrames 2.3 非强类型结果集操作 2.4 程序化执行SQL查询 2.5 全局临时视图 2.6 创建DataSets 2.7 与阅读全文

posted @ 2017-05-07 21:40 Jonson Li 阅读(838) 评论(0) 推荐(0)

【Spark深入学习 -15】Spark Streaming前奏-Kafka初体验

摘要：本节内容 1.Kafka基础概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知识 1.2.2.架构和原理 1.2.3.基本概念 1.2.4.kafka特点 2.Kafka初体验 2.1 环境准备 2.2 Kafka小试牛刀 2.2.1单个broker初体验 2.2.2 多个broker初体阅读全文

posted @ 2017-05-07 21:39 Jonson Li 阅读(348) 评论(0) 推荐(0)

【Spark深入学习 -14】Spark应用经验与程序调优

摘要：本节内容 1.遗留问题解答 2.Spark调优初体验 2.1 利用WebUI分析程序瓶颈 2.2 设置合适的资源 2.3 调整任务的并发度 2.4 修改存储格式 3.Spark调优经验 3.1 Spark原理及调优工具 3.2 运行环境优化 3.2.1 防止不必要的分发 3.2.2 提高数据本地性阅读全文

posted @ 2017-05-07 21:37 Jonson Li 阅读(1717) 评论(1) 推荐(0)

【Spark深入学习 -13】Spark计算引擎剖析

摘要：本节内容 1.遗留问题解答 2.Spark核心概念 2.1 RDD及RDD操作 2.2 Transformation和Action 2.3 Spark程序架构 2.4 Spark on Yarn运行流程 2.5 WordCount执行原理 3.Spark计算引擎原理 3.1 Spark内部原理 3. 阅读全文

posted @ 2017-05-07 21:36 Jonson Li 阅读(689) 评论(0) 推荐(0)

大数据与人工智能探索

“云”，“大数据”，“人工智能”正在改变着我们的生活，让我们一起来迎接新的变革与挑战吧。

随笔分类 - Big Data (Suro, Kafka, Hadoop, Spark, ES, Druid)

公告