懵懂的菜鸟

Stay hungry,Stay foolish.

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

随笔分类 -  大数据|Hadoop知识

一篇了解大数据架构及Hadoop生态圈
摘要:一篇了解大数据架构及Hadoop生态圈 阅读建议,有一定基础的阅读顺序为1,2,3,4节,没有基础的阅读顺序为2,3,4,1节。 第一节 集群规划 大数据集群规划(以CDH集群为例),参考链接: https://www.cloudera.com/documentation/enterprise/la 阅读全文

posted @ 2019-05-11 00:15 懵懂的菜鸟 阅读(26636) 评论(0) 推荐(2) 编辑

HUE-hive常用查询语句整理
摘要:通过hue进行数据导入: 1,create table demo_id(`id` string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' 2, load data inpath '/user/demo.csv' into table demo_id #sql数据筛选 create table `table_na... 阅读全文

posted @ 2019-05-11 00:07 懵懂的菜鸟 阅读(5312) 评论(0) 推荐(0) 编辑

spark
摘要:转:http://www.cnblogs.com/haozhengfei/p/039dfec24294b39a2035b915dc96ef4c.html Spark_总结一 1.Spark介绍 1.1什么是Spark? Apache Spark是一个开源的集群计算框架,使数据计算更快(高效运行,快速 阅读全文

posted @ 2017-10-25 19:58 懵懂的菜鸟 阅读(1176) 评论(0) 推荐(0) 编辑

MapReduce
摘要:转:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html 1,MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间 阅读全文

posted @ 2017-10-25 19:47 懵懂的菜鸟 阅读(203) 评论(0) 推荐(0) 编辑

hadoop集群的三种运行模式
摘要:单机(本地)模式: 这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个 阅读全文

posted @ 2017-10-25 19:41 懵懂的菜鸟 阅读(998) 评论(0) 推荐(0) 编辑

大数据研发
摘要:大数据工程师(开发)面试题(附答案) MapReduce 1. 不指定语言,写一个WordCount的MapReduce 我:最近刚学了scala,并且就有scala版本的WordCount,刚好学以致用了一下: 补:至于java版本,虾皮博主的一篇文章讲解的非常细致: Hadoop集群(第6期)_ 阅读全文

posted @ 2017-10-25 19:35 懵懂的菜鸟 阅读(2718) 评论(0) 推荐(0) 编辑

spark
摘要:Spark是UC Berkeley AMP lab开发的一个集群计算的框架,类似于Hadoop,但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次都写入HDFS,更适用于需要迭代的MapReduce算法场景中,可以获得更好的性能提升。例如一次排序测试中,对100TB数据进行 阅读全文

posted @ 2017-10-13 23:00 懵懂的菜鸟 阅读(442) 评论(0) 推荐(0) 编辑

数据挖掘在大数据中的应用综述
摘要:数据挖掘在大数据中的应用综述 *** (上海海事大学 上海 201306) 摘 要: 面对大规模多源异构的数据,数据挖掘的方法不断的得到改善与发展,同时对于数据挖掘体系的完善也提出了新的挑战。针对当前数据挖掘在大数据方面的应用,本文从数据挖掘的各个阶段进行了方法论的总结及应用,主要包括数据准备的方法 阅读全文

posted @ 2017-09-30 11:15 懵懂的菜鸟 阅读(4020) 评论(0) 推荐(0) 编辑

hadoop生态圈
摘要:1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 具有可靠、高效、可伸缩的特点。 Hadoop的核心是YARN,HDFS和Mapreduce (Apache 阅读全文

posted @ 2017-09-16 22:36 懵懂的菜鸟 阅读(672) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示