大数据|Hadoop知识 - 随笔分类 - 懵懂的菜鸟

一篇了解大数据架构及Hadoop生态圈

摘要：一篇了解大数据架构及Hadoop生态圈阅读建议，有一定基础的阅读顺序为1,2,3,4节，没有基础的阅读顺序为2,3,4,1节。第一节集群规划大数据集群规划（以CDH集群为例），参考链接： https://www.cloudera.com/documentation/enterprise/la 阅读全文

posted @ 2019-05-11 00:15 懵懂的菜鸟阅读(26636) 评论(0) 推荐(2) 编辑

摘要：通过hue进行数据导入： 1，create table demo_id(`id` string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' 2, load data inpath '/user/demo.csv' into table demo_id #sql数据筛选 create table `table_na... 阅读全文

posted @ 2019-05-11 00:07 懵懂的菜鸟阅读(5312) 评论(0) 推荐(0) 编辑

spark

摘要：转：http://www.cnblogs.com/haozhengfei/p/039dfec24294b39a2035b915dc96ef4c.html Spark_总结一 1.Spark介绍 1.1什么是Spark? Apache Spark是一个开源的集群计算框架，使数据计算更快（高效运行，快速阅读全文

posted @ 2017-10-25 19:58 懵懂的菜鸟阅读(1176) 评论(0) 推荐(0) 编辑

MapReduce

摘要：转：http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html 1，MapReduce编程模型 MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间阅读全文

posted @ 2017-10-25 19:47 懵懂的菜鸟阅读(203) 评论(0) 推荐(0) 编辑

hadoop集群的三种运行模式

摘要：单机（本地）模式：这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个阅读全文

posted @ 2017-10-25 19:41 懵懂的菜鸟阅读(998) 评论(0) 推荐(0) 编辑

大数据研发

摘要：大数据工程师（开发）面试题(附答案) MapReduce 1. 不指定语言，写一个WordCount的MapReduce 我：最近刚学了scala，并且就有scala版本的WordCount，刚好学以致用了一下：补：至于java版本，虾皮博主的一篇文章讲解的非常细致： Hadoop集群（第6期）_ 阅读全文

posted @ 2017-10-25 19:35 懵懂的菜鸟阅读(2718) 评论(0) 推荐(0) 编辑

spark

摘要：Spark是UC Berkeley AMP lab开发的一个集群计算的框架，类似于Hadoop，但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代的MapReduce算法场景中，可以获得更好的性能提升。例如一次排序测试中，对100TB数据进行阅读全文

posted @ 2017-10-13 23:00 懵懂的菜鸟阅读(442) 评论(0) 推荐(0) 编辑

数据挖掘在大数据中的应用综述

摘要：数据挖掘在大数据中的应用综述 *** (上海海事大学上海 201306) 摘要: 面对大规模多源异构的数据，数据挖掘的方法不断的得到改善与发展，同时对于数据挖掘体系的完善也提出了新的挑战。针对当前数据挖掘在大数据方面的应用，本文从数据挖掘的各个阶段进行了方法论的总结及应用，主要包括数据准备的方法阅读全文

posted @ 2017-09-30 11:15 懵懂的菜鸟阅读(4020) 评论(0) 推荐(0) 编辑

hadoop生态圈

摘要：1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。 Hadoop的核心是YARN,HDFS和Mapreduce (Apache 阅读全文

posted @ 2017-09-16 22:36 懵懂的菜鸟阅读(672) 评论(0) 推荐(0) 编辑

懵懂的菜鸟

导航

公告

轻松一刻

页面访客

统计

搜索

最新随笔

随笔分类 (369)

随笔档案 (331)

友情链接

阅读排行榜

评论排行榜

推荐排行榜

最新评论

随笔分类 - 大数据|Hadoop知识

一篇了解大数据架构及Hadoop生态圈

HUE-hive常用查询语句整理

spark

MapReduce

hadoop集群的三种运行模式

大数据研发

spark

数据挖掘在大数据中的应用综述

hadoop生态圈