上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 13 下一页
摘要: 原理 在Map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本实验中使用的是TextInputFormat,他提供的RecordReder会将文本的字节偏 阅读全文
posted @ 2018-10-09 17:11 夏延 阅读(1736) 评论(0) 推荐(1) 编辑
摘要: 原理 在Reudce端进行Join连接是MapReduce框架进行表之间Join操作最为常见的模式。 1.Reduce端Join实现原理 (1)Map端的主要工作,为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后 阅读全文
posted @ 2018-10-03 17:10 夏延 阅读(877) 评论(1) 推荐(0) 编辑
摘要: 原理 MapReduce提供了表连接操作其中包括Map端join、Reduce端join还有单表连接,现在我们要讨论的是Map端join,Map端join是指数据到达map处理函数之前进行合并的,效率要远远高于Reduce端join,因为Reduce端join是把所有的数据都经过Shuffle,非常 阅读全文
posted @ 2018-09-29 17:08 夏延 阅读(1817) 评论(0) 推荐(0) 编辑
摘要: 原理 以本实验的buyer1(buyer_id,friends_id)表为例来阐述单表连接的实验原理。单表连接,连接的是左表的buyer_id列和右表的friends_id列,且左表和右表是同一个表。因此,在map阶段将读入数据分割成buyer_id和friends_id之后,会将buyer_id设 阅读全文
posted @ 2018-09-22 17:07 夏延 阅读(692) 评论(0) 推荐(0) 编辑
摘要: 原理 Map、Reduce任务中Shuffle和排序的过程图如下: 流程分析: 1.Map端: (1)每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为 阅读全文
posted @ 2018-09-20 17:06 夏延 阅读(9743) 评论(0) 推荐(0) 编辑
摘要: 课堂实验 石家庄铁道大学信息学院 1.启动MongoDB shell。 view plain copy numactl --interleave=all mongod -config /apps/mongodb/bin/mongodb.conf mongo 2.切换到admin数据库,使用root账 阅读全文
posted @ 2018-09-12 17:04 夏延 阅读(337) 评论(0) 推荐(0) 编辑
摘要: "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 MaprReduce去重流程如下图所示: 数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。在MapReduce 阅读全文
posted @ 2018-09-07 17:02 夏延 阅读(4165) 评论(0) 推荐(0) 编辑
摘要: 1.编写 Java 代码连接 MongoDB 数据库。 2.编写 Java 代码在 MongoDB 中创建集合。 3.编写 Java 代码在 MongoDB 中获取集合。 4.编写 Java 代码在 MongoDB 中插入文档。 5.编写 Java 代码在 MongoDB 中检索所有文档。 6.编写 阅读全文
posted @ 2018-09-02 16:59 夏延 阅读(632) 评论(0) 推荐(0) 编辑
摘要: (一) MySQL 数据库操作 学生表 Student Name English Math Computer zhangsan 69 86 77 lisi 55 100 88 根据上面给出的 Student 表,在 MySQL 数据库中完成如下操作: 在 MySQL 中创建 Student 表,并录 阅读全文
posted @ 2018-08-30 16:50 夏延 阅读(3779) 评论(0) 推荐(0) 编辑
摘要: (一)编程实现以下指定功能,并用 Hadoop 提供的 HBase Shell 命令完成相同任务: (1)列出 HBase 所有的表的相关信息,例如表名; (2)在终端打印出指定的表的所有记录数据; (3)向已经创建好的表添加和删除指定的列族或列; (4)清空指定的表的所有记录数据; (5)统计表的 阅读全文
posted @ 2018-08-22 19:28 夏延 阅读(910) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 13 下一页