2018年6月1日

Hadoop调度框架

摘要: 大数据协作框架是一个桐城,就是Hadoop2生态系统中几个辅助的Hadoop2.x框架。主要如下: 1,数据转换工具Sqoop 2,文件搜集框架Flume 3,任务调度框架Oozie 4,大数据Web工具Hue 任务调度框架 1,Linux Crontab 2,Azkaban –https://az 阅读全文

posted @ 2018-06-01 18:34 Hi,王松柏 阅读(196) 评论(0) 推荐(0) 编辑

再谈spark部署搭建和企业级项目接轨的入门经验(博主推荐)

摘要: 进入我这篇博客的博友们,相信你们具备有一定的spark学习基础和实践了。 先给大家来梳理下。spark的运行模式和常用的standalone、yarn部署。这里不多赘述,自行点击去扩展。 1、Spark运行模式概述 2、Spark standalone模式的安装(spark-1.6.1-bin-ha 阅读全文

posted @ 2018-06-01 18:31 Hi,王松柏 阅读(304) 评论(0) 推荐(0) 编辑

Hive环境的安装部署(完美安装)(集群内或集群外都适用)(含卸载自带mysql安装指定版本)

摘要: Hive 安装依赖 Hadoop 的集群,它是运行在 Hadoop 的基础上。 所以在安装 Hive 之前,保证 Hadoop 集群能够成功运行。 同时,比如我这里的master、slave1和slave2组成的hadoop集群。hive的安装可以安装在任一一个节点上,当然,也可以安装在集群之外,取 阅读全文

posted @ 2018-06-01 18:29 Hi,王松柏 阅读(325) 评论(0) 推荐(0) 编辑

Hadoop Hive概念学习系列之HDFS、Hive、MySQL、Sqoop之间的数据导入导出(强烈建议去看)

摘要: Hive总结(七)Hive四种数据导入方式 (强烈建议去看) Hive几种数据导出方式 https://www.iteblog.com/archives/955 (强烈建议去看) 把MySQL里的数据导入到HDFS 1、使用MySQL工具手工导入 把MySQL的导出数据导入到HDFS的最简单方法就是 阅读全文

posted @ 2018-06-01 18:18 Hi,王松柏 阅读(876) 评论(0) 推荐(0) 编辑

转】[1.0.2] 详解基于maven管理-scala开发的spark项目开发环境的搭建与测试

摘要: 场景 好的,假设项目数据调研与需求分析已接近尾声,马上进入Coding阶段了,辣么在Coding之前需要干马呢?是的,“统一开发工具、开发环境的搭建与本地测试、测试环境的搭建与测试” - 本文详细记录实际Spark项目开发环境的搭建。 分析 开发工具 操作系统:win 10 JDK 版本 :jdk1 阅读全文

posted @ 2018-06-01 18:15 Hi,王松柏 阅读(207) 评论(0) 推荐(0) 编辑

Spark SQL概念学习系列之Spark SQL入门

摘要: 前言 第1章 为什么Spark SQL? 第2章 Spark SQL运行架构 第3章 Spark SQL组件之解析 第4章 深入了解Spark SQL运行计划 第5章 测试环境之搭建 第6章 Spark SQL之基础应用 第7章 ThriftServer和CLI 第8章 Spark SQL之综合应用 阅读全文

posted @ 2018-06-01 18:14 Hi,王松柏 阅读(179) 评论(0) 推荐(0) 编辑

Spark MLlib机器学习

摘要: 前言 Spark MLlib是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。 阅读全文

posted @ 2018-06-01 18:13 Hi,王松柏 阅读(108) 评论(0) 推荐(0) 编辑

Scala入门到精通

摘要: 原文出自于: http://my.csdn.net/lovehuangjiaju 感谢! 也感谢,http://m.blog.csdn.net/article/details?id=52233484 这是本人收集的Scala学习资料,觉得还不错。转载比较费事,所以就只给链接了。顺便做个目标,方便好找 阅读全文

posted @ 2018-06-01 18:12 Hi,王松柏 阅读(497) 评论(0) 推荐(0) 编辑

【转】Hive安装及使用攻略

摘要: Posted: Jul 16, 2013 Tags: HadoophiveHiveQLsql分区表 Comments: 18 Comments HadoophiveHiveQLsql分区表 Hive安装及使用攻略 让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群 阅读全文

posted @ 2018-06-01 18:10 Hi,王松柏 阅读(296) 评论(0) 推荐(0) 编辑

转】用Maven构建Hadoop项目

摘要: 用Maven构建Hadoop项目 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, 阅读全文

posted @ 2018-06-01 18:09 Hi,王松柏 阅读(304) 评论(0) 推荐(0) 编辑

【转】Hive导入10G数据的测试

摘要: Hive导入10G数据的测试 让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。 现在硬件越来越便宜,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,已经降到2万块人民币以下了。这种配置如果简单 阅读全文

posted @ 2018-06-01 18:07 Hi,王松柏 阅读(151) 评论(0) 推荐(0) 编辑

【转】Hive学习路线图

摘要: Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, 阅读全文

posted @ 2018-06-01 18:05 Hi,王松柏 阅读(138) 评论(0) 推荐(0) 编辑

HBase 官方文档中文版

摘要: 进入http://abloz.com/hbase/book.html 阅读全文

posted @ 2018-06-01 18:01 Hi,王松柏 阅读(1045) 评论(0) 推荐(0) 编辑

【转】 hive简介,安装 配置常见问题和例子

摘要: 原文来自: http://blog.csdn.net/zhumin726/article/details/8027802 1 HIVE概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,HIVE的设计,可以轻松实现数据汇总,ad-hoc查询和分析大量的数据。 阅读全文

posted @ 2018-06-01 17:59 Hi,王松柏 阅读(303) 评论(0) 推荐(0) 编辑

MapReduce 开发环境搭建(Eclipse\MyEclipse + Maven)

摘要: 写在前面的话 可详细参考,一定得去看 HBase 开发环境搭建(Eclipse\MyEclipse + Maven) Zookeeper项目开发环境搭建(Eclipse\MyEclipse + Maven) Hive项目开发环境搭建(Eclipse\MyEclipse + Maven) 我这里,相信 阅读全文

posted @ 2018-06-01 17:57 Hi,王松柏 阅读(1017) 评论(0) 推荐(0) 编辑

HBase 开发环境搭建(Eclipse\MyEclipse + Maven)

摘要: 写在前面的话 首先, 搭建基于MyEclipse的Hadoop开发环境 相信,能看此博客的朋友,想必是有一定基础的了。我前期写了大量的基础性博文。可以去补下基础。 比如, CentOS图形界面下如何安装Eclipse和使用maven Eclipse下新建Maven项目、自动打依赖jar包 【转】ma 阅读全文

posted @ 2018-06-01 17:56 Hi,王松柏 阅读(472) 评论(0) 推荐(0) 编辑

Hadoop项目开发环境搭建(Eclipse\MyEclipse + Maven)

摘要: 写在前面的话 可详细参考,一定得去看 HBase 开发环境搭建(Eclipse\MyEclipse + Maven) Zookeeper项目开发环境搭建(Eclipse\MyEclipse + Maven) Hive项目开发环境搭建(Eclipse\MyEclipse + Maven) MapRed 阅读全文

posted @ 2018-06-01 17:56 Hi,王松柏 阅读(189) 评论(0) 推荐(0) 编辑

Hive项目开发环境搭建(Eclipse\MyEclipse + Maven)

摘要: 写在前面的话 可详细参考,一定得去看 HBase 开发环境搭建(Eclipse\MyEclipse + Maven) Zookeeper项目开发环境搭建(Eclipse\MyEclipse + Maven) 我这里,相信,能看此博客的朋友,想必是有一定基础的了。我前期写了大量的基础性博文。可以去补下 阅读全文

posted @ 2018-06-01 17:55 Hi,王松柏 阅读(241) 评论(0) 推荐(0) 编辑

开始使用storm

摘要: 开始使用storm 本章将讲述如何安装、部署、启动和停止 Storm 集群。 Storm 的安装比较简单,但在安装 Storm 之前需要做好充足的准备,本章将介绍安装的整个流程。在官网上可以下载到Storm 最新的和稳定的几个版本。截至本书截稿之前, Storm 的最新版本是 0.9.3,但是本书主 阅读全文

posted @ 2018-06-01 17:50 Hi,王松柏 阅读(213) 评论(0) 推荐(0) 编辑

Storm概念学习系列之storm简介

摘要: storm简介 Storm 是 Twitter 开源的、分布式的、容错的实时计算系统,遵循 Eclipse Public License1.0。 Storm 通过简单的 API 使开发者可以可靠地处理无界持续的流数据,进行实时计算。 Twitter Storm 是使用 Clojure(发音同 clo 阅读全文

posted @ 2018-06-01 17:49 Hi,王松柏 阅读(639) 评论(0) 推荐(0) 编辑

导航