08 2020 档案

2020暑假第8周
摘要:这周学的是Hadoop的Mapreduce部分。 MapReduce思想在生活中处处可见,或多或少都曾经接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的、大规模的任务处理场景。把复杂的任务分解成若干个“简单的任务”来并行处理,可以进行拆分的前提是这些小任务可以并行计算,彼 阅读全文

posted @ 2020-08-22 21:38 FF冯静妃 阅读(132) 评论(0) 推荐(0) 编辑

2020暑假第7周
摘要:这周学习了HDFS的API系列操作。 首先,在Windows系统需要配置hadoop运行环境。 然后 然后,导入maven依赖。 然后,使用url方式访问数据。 然后,使用文件系统方式访问数据。 在Java中操作HDFS,主要涉及Configuration类和FileSystem类。 用方法:Fil 阅读全文

posted @ 2020-08-15 17:07 FF冯静妃 阅读(67) 评论(0) 推荐(0) 编辑

2020暑假第6周
摘要:这周学习了hadoop的核心HDFS。 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统成为分布式文件系统。HDFS是Apache Hadoop项目的一个子项目。Hadoop非常适合于存储大型数据(比如TB和PB),其就是使用HDFS作为存储系统。HD 阅读全文

posted @ 2020-08-08 18:57 FF冯静妃 阅读(95) 评论(0) 推荐(0) 编辑

2020暑假第5周
摘要:这周学习了Hadoop的相关知识。 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。可行的解决方案有分布式文件系统和分布式计算框架,Nutch 阅读全文

posted @ 2020-08-01 19:46 FF冯静妃 阅读(72) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示