随笔分类 -  大数据

记录大数据相关知识
摘要:#分布式存储FastDFS 传统文件系统管理的文件就存储在本机。 分布式文件系统管理的文件存储在很多机器,这些机器通过网络连接,要被统一管理。无论是上传或者访问文件,都需要通过管理中心来访问 ##FastDFS的架构 FastDFS两个主要的角色:Tracker Server 和 Storage S 阅读全文
posted @ 2021-08-22 14:56 菜菜920 阅读(122) 评论(0) 推荐(0) 编辑
摘要:Sqoop 简介 Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可 阅读全文
posted @ 2020-02-18 11:51 菜菜920 阅读(1063) 评论(0) 推荐(0) 编辑
摘要:pig Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台。 Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口,这一点和FaceBook开源的Hive 阅读全文
posted @ 2020-02-17 18:17 菜菜920 阅读(1067) 评论(0) 推荐(0) 编辑
摘要:DHFS 常用命令 hadoop fs hadoop fs -ls /hadoop fs -lsrhadoop fs -mkdir /user/hadoophadoop fs -put a.txt /user/hadoop/hadoop fs -get /user/hadoop/a.txt /had 阅读全文
posted @ 2020-02-17 15:14 菜菜920 阅读(368) 评论(0) 推荐(0) 编辑
摘要:Apache Hadoop 软件库是一个框架,允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理。Hadoop 被设计成能够从单台服务器扩展到数以千计的服务器,每台服务器都有本地的计算和存储资源。Hadoop 的高可用性并不依赖硬件,其代码库自身就能在应用层侦测并处理硬件故障,因此能基于服 阅读全文
posted @ 2020-02-17 12:36 菜菜920 阅读(302) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示