hadoop - 随笔分类 - 一字千金

pycharm最新激活码和最新破解方案闭坑

摘要：自己开发了一个股票智能分析软件，功能很强大，需要的点击下面的链接获取： https://www.cnblogs.com/bclshuai/p/11380657.html 1.激活问题（1）网上找了很多激活码，大多都是失效的，还要强行关注微信公众号，好恶心，关注后返回的激活码又没有用，终于找到一个可阅读全文

posted @ 2021-06-09 11:43 一字千金阅读(1555) 评论(0) 推荐(0) 编辑

11.3hadoop 维护：备份、委任解除节点、升级

摘要：1.1 维护 1.1.1 日常管理过程（1） namenode元数据备份使用dfsadmin下载最新的fsimage镜像文件 hdfs dfsadmin –fetchImage fsimage.backup （2）数据备份 hadoop复本机制仍然可能导致重要数据丢失，所以要将优先级高的数据进阅读全文

posted @ 2020-03-11 10:24 一字千金阅读(404) 评论(0) 推荐(0) 编辑

11.2hadoop监控：日志配置、堆栈跟踪、度量和JMX

摘要：1.1 监控检测集群的健康状态，避免宕机。 1.1.1 日志访问http://resource-manager-host:8088/logLevel去设置日志级别，用于排查问题。或者用命令hadoop daemonlog –setlevel resource-manager-host:8088 阅读全文

posted @ 2020-03-11 10:21 一字千金阅读(491) 评论(0) 推荐(0) 编辑

11.1.3hadoop工具dfsadmin、fsck、数据库扫描器、均衡器

摘要：（1） dfsadmin管理控制工具查看hdfs的状态，切换安全模式，保存新的fsimage镜像，重置edits文件等（2） fsck工具（file system check） fsck工具从namenode获取文件系统的信息，检测文件系统总字节数，文件夹数，文件数，数据块数，满足最小复制条件的阅读全文

posted @ 2020-03-11 10:18 一字千金阅读(355) 评论(0) 推荐(0) 编辑

11.1.2hadoop 安全模式

摘要：1.1.1 安全模式安全模式是文件系统只读不写的过程，一般在载入旧镜像，执行编辑日志，生成新镜像和空编辑日志文件的过程中。datanode存储数据块列表，namenode存储块的位置信息。datanode定期向namenode发送最新的块列表信息。如果某个块复本数量少于最小复本级别（dfs.nam 阅读全文

posted @ 2020-03-11 10:13 一字千金阅读(306) 评论(0) 推荐(0) 编辑

11.1.1namenode和datanode的数据结构和格式以及镜像fsimage和编辑日志edit

摘要：1.1.1 永久性数据结构 namenode的目录结构如下图（1） VERSION属性文件 namespaceid文件系统命名空间唯一标识。 clusterID是将HDFS集群作为一个整体赋予的唯一标识符。 blockpoolID是数据块池的唯一标识。 CTime是namenode存储系统创建时间阅读全文

posted @ 2020-03-11 10:11 一字千金阅读(504) 评论(0) 推荐(0) 编辑

10.5 hadoop集群基准评测程序测试

摘要：1.1 基准评测程序测试hadoop集群通过运行测试作业，用测试结果和资源检测结果来判断集群的性能，调整设置进行优化。最好在刚搭建好集群时测试。通过运行高强度的IO操作评测程序检测硬盘故障。 1.1.1 hadoop基准评测程序（1）测试IO读写 hadoop自带基准评测程序，在D:\hadoo 阅读全文

posted @ 2020-03-11 10:06 一字千金阅读(556) 评论(0) 推荐(0) 编辑

10.3 hadoop地址配置、内存配置、守护进程设置、环境设置

摘要：1.1 hadoop配置 hadoop配置文件在安装包的etc/hadoop目录下，但是为了方便升级，配置不被覆盖一般放在其他地方，并用环境变量HADOOP_CONF_DIR指定目录。 1.1.1 配置管理集群中每个节点都维护一套配置文件，并由管理员完成文件的同步工作。集群管理工具Cloudera 阅读全文

posted @ 2020-03-01 17:38 一字千金阅读(3009) 评论(0) 推荐(0) 编辑

reduce连接是怎么按组合键分组聚合功能原理详解

摘要：1.reduce连接实现目标气象站数据集，气象站id和名称数据表 StationId StationName 1~hangzhou 2~shanghai 3~beijing 温度记录数据集 StationId TimeStamp Temperature 3~20200216~6 3~2020021 阅读全文

posted @ 2020-02-22 00:47 一字千金阅读(415) 评论(0) 推荐(0) 编辑

hadoop 自定义TextPair和使用原理

摘要：1.hadoop TextPair组合键定义 package Temperature; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput 阅读全文

posted @ 2020-02-22 00:23 一字千金阅读(426) 评论(0) 推荐(0) 编辑

9.3.2 map端连接-CompositeInputFormat连接类

摘要：1.1.1 map端连接-CompositeInputFormat连接类（1）使用CompositeInputFormat连接类需要满足三个条件： 1）两个数据集都是大的数据集，不能用缓存文件的方式。 2）数据集都是按照相同的键进行排序； 3）数据集有相同的分区数，同一个键的所有记录在同一个分区中阅读全文

posted @ 2020-02-19 00:22 一字千金阅读(513) 评论(0) 推荐(0) 编辑

9.2.3 hadoop reduce端连接-分区分组聚合

摘要：1.1.1 reduce端连接-分区分组聚合 reduce端连接则是利用了reduce的分区功能将stationid相同的分到同一个分区，在利用reduce的分组聚合功能，将同一个stationid的气象站数据和温度记录数据分为一组，reduce函数读取分组后的第一个记录（就是气象站的名称）与其他记阅读全文

posted @ 2020-02-16 23:35 一字千金阅读(509) 评论(0) 推荐(0) 编辑

9.3.1 map端连接- DistributedCache分布式缓存小数据集

摘要：1.1.1 map端连接- DistributedCache分布式缓存小数据集当一个数据集非常小时，可以将小数据集发送到每个节点，节点缓存到内存中，这个数据集称为边数据。用map函数将小数据集中的数据按键聚合到大的数据集中，输出连接数据集，进行连接操作。（1）分布式缓存指定缓存文件执行命令行阅读全文

posted @ 2020-02-16 23:31 一字千金阅读(364) 评论(0) 推荐(0) 编辑

9.2.2 hadoop采样分组源码解析SplitSampler、RandomSampler、IntervalSampler

摘要：采样分组为了实现输出的全局排序，可以对温度数据进行分组处理，实现多个reduce处理，组间有序，组内有序，从而实现全局有序。而如何分组才能保证每个reduce分到的数据差不多，这样作业中的任务执行时间也差不多。例如将处理温度数据，要求温度按顺序输出。分成4组个分组，<-10℃，-10℃~0℃, 0 阅读全文

posted @ 2020-02-15 23:45 一字千金阅读(438) 评论(0) 推荐(0) 编辑

9.2.1 hadoop mapreduce任务输出的默认排序

摘要：任务的默认排序 MapTask和ReduceTask都会默认对数据按照key进行排序，不管逻辑上是否需要。默认是按照字典顺序排序，且实现该排序的方法是快速排序。但是map和reduce任务只能保证单个任务内部输出有序，不能保证所有输出全局有序。 MapTask，当环形缓冲区使用率到达一定阈值后进行一阅读全文

posted @ 2020-02-15 23:42 一字千金阅读(841) 评论(0) 推荐(0) 编辑

9.2.2 hadoop全排序实例详解

摘要：1.1.1 全排序（1）全排序概述指的是让所有的输出结果都是有序的，最简单的方法就是用一个reduce任务，但是这样处理大型文件时效率极低，失去的并行架构的意义。所以可以采用分组排序的方法来实现全局排序，例如现在要实现按键的全局的排序，可以将键值按照取值范围分为n个分组，<-10℃，-10℃~0 阅读全文

posted @ 2020-02-15 23:40 一字千金阅读(496) 评论(0) 推荐(0) 编辑

9.2.3 hadoop辅助排序（二次排序）数据实例详解，idea测试hadoop二次排序通过

摘要：1.1.1 辅助排序（二次排序）（1）二次排序定义通常情况下我们只对键进行排序，例如（年份，温度）组成的键值对，我们通常只对key年份进行排序，如果先按照年份排好序，还要求年份相同的再按照温度进行进行逆序排列，像这样先按照第一字段进行排序，然后再对第一字段相同的行按照第二字段排序，我们称为二次排阅读全文

posted @ 2020-02-15 21:57 一字千金阅读(604) 评论(0) 推荐(0) 编辑

9.1hadoop 内置计数器、自定义枚举计数器、Streaming计数器

摘要：1.1 计数器计数器的作用是用来统计数量的，用于记录特定事件的次数，分为内置计数器、自定义java枚举计数器、自定义Stream计数器三大类。用于质量分析，或应用级统计。分析计数器的值比分析一堆日志更高效。计数器名称计数器介绍内置计数器 Hadoop自带的计数器，有特定的计数器名称。例如统计阅读全文

posted @ 2020-02-12 09:17 一字千金阅读(942) 评论(0) 推荐(0) 编辑

8.3hadoop mapreduce 输出格式

摘要：1.1 输出格式 1.1.1 TextOutputFormat文本输出默认输出格式，键值通toString（）转为文本，Tab键分隔，属性mapreduce.putput. textoutputformat.separator属性设置分隔符。 1.1.2 二进制输出（1） SequenceFil 阅读全文

posted @ 2020-02-08 23:53 一字千金阅读(696) 评论(0) 推荐(0) 编辑

WholeFileInputFormat 和WholeFileRecordReader合并小文件

摘要：如果不希望文件被切分，例如判断文件中记录是否有序，可以让minimumSize值大于最大文件的大小，但是文件的大小不能超过blockSize，或者重写FileInputFormat方法isSplitable（）返回为false。下面介绍将多个小文件合成一个大的序列文件的例子: 1)自定义完整文件输入阅读全文

posted @ 2020-02-03 13:05 一字千金阅读(407) 评论(0) 推荐(0) 编辑

一字千金

随笔分类 - hadoop

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论