at_today - 博客园

大数据学习笔记5 - Spark

摘要： Spark是一个基于内存计算的大数据并行计算框架。所以，Spark并不能完全替代Hadoop，主要用于替代Hadoop中的MapReduce计算模型。在实际应用中，大数据处理无非是以下几个类型：复杂的批量数据处理，这种类型的处理时间跨度通常在数十分钟到数小时之间，处理这种数据的工具有Hadoop 阅读全文

posted @ 2019-04-17 10:34 at_today 阅读(202) 评论(0) 推荐(0) 编辑

大数据学习笔记4 - Hadoop的优化与发展（Hadoop 2.0）

摘要：前面介绍了Hadoop核心组件HDFS和MapReduce，Hadoop发展之初在架构设计和应用性能方面仍然存在不足，Hadoop的优化与发展一方面体现在两个核心组件的架构设计改进，一方面体现在Hadoop生态系统其他组件的不断丰富。此文介绍Hadoop2.0中添加的新特性。一、HDFS 2.0新阅读全文

posted @ 2019-04-16 16:12 at_today 阅读(1222) 评论(0) 推荐(0) 编辑

Docker端口映射

摘要： Docker端口映射是指将容器内应用的服务端口映射到本机宿主机器。当要在宿主机外部访问Docker内部应用时，需要对容器内应用端口进行映射。一、容器启动时指定端口映射容器运行时可以通过-p 或 -P参数指定端口映射。 1、-P随机映射 docker run时使用-P参数，Docker会随机选择一阅读全文

posted @ 2019-04-11 17:58 at_today 阅读(1638) 评论(0) 推荐(0) 编辑

hadoop集群访问——Hadoop客户端访问、Java API访问

摘要：上一篇中介绍了hadoop集群搭建方式，本文介绍集群的访问。集群的访问方式有两种：hadoop客户端访问，Java API访问。一、集群客户端访问 Hadoop采用C/S架构，可以通过客户端对集群进行操作，其实在前面搭建的集群环境中，每个集群节点都可以作为一个客户端进行集群访问，但是一般场景下，会阅读全文

posted @ 2019-04-11 13:41 at_today 阅读(4223) 评论(0) 推荐(0) 编辑

Hadoop环境搭建--Docker完全分布式部署Hadoop环境（菜鸟采坑吐血整理）

摘要：系统：Centos 7，内核版本3.10 本文介绍如何从0利用Docker搭建Hadoop环境，制作的镜像文件已经分享，也可以直接使用制作好的镜像文件。一、宿主机准备工作 0、宿主机（Centos7）安装Java（非必须，这里是为了方便搭建用于调试的伪分布式环境） 1、宿主机安装Docker并启动阅读全文

posted @ 2019-04-08 18:45 at_today 阅读(8016) 评论(0) 推荐(0) 编辑

Java反射

摘要：什么是反射 JAVA反射机制是在运行状态中，对于任意一个类，都能够知道这个类的所有属性和方法；对于任意一个对象，都能够调用它的任意一个方法；这种动态获取信息以及动态调用对象的方法的功能称为java语言的反射机制。反射就是将java类中的各种成分映射成一个个的Java对象。 java反射框架提供的功阅读全文

posted @ 2019-04-05 00:09 at_today 阅读(261) 评论(0) 推荐(0) 编辑

大数据学习笔记3 - 并行编程模型MapReduce

摘要：分布式并行编程用于解决大规模数据的高效处理问题。分布式程序运行在大规模计算机集群上，集群中计算机并行执行大规模数据处理任务，从而获得海量计算能力。 MapReduce是一种并行编程模型，用于大规模数据集的并行运算，那么MapReduce又是如何进行并行编程的呢？ MapReduce采用“分而治之”的阅读全文

posted @ 2019-03-14 21:39 at_today 阅读(1341) 评论(0) 推荐(0) 编辑

大数据学习笔记2 - 分布式文件系统HDFS

摘要：分布式文件系统结构分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统，采用C/S模式实现文件系统数据访问，目前广泛应用的分布式文件系统主要包括GFS和HDFS，后者是前者的开源实现。分布式文件系统在物理结构上由计算机集群中的多个节点构成，这些节点分为两类：主节点（亦称“名称阅读全文

posted @ 2019-03-08 17:24 at_today 阅读(1441) 评论(0) 推荐(0) 编辑

大数据学习笔记1-大数据处理架构Hadoop

摘要： Hadoop：一个开源的、可运行于大规模集群上的分布式计算平台。实现了MapReduce计算模型和分布式文件系统HDFS等功能，方便用户轻松编写分布式并行程序。 Hadoop生态系统： HDFS：Hadoop 分布式文件系统，是Hadoop项目的两大核心之一。 HBase：提供高可靠性、高性能、可伸阅读全文

posted @ 2019-03-06 17:17 at_today 阅读(701) 评论(0) 推荐(0) 编辑