03 2024 档案
摘要:为了解决现有分布式深度森林存在的问题,本文提出了一种新的计算效率高、鲁棒性强的分布式深度森林算法 CERT-DF。CERT-DF 基于本文新提出的 SAB 机制构建的,该机制集成了三种方案:块级预采样、两阶段预聚合和系统级备份。块级预采样将数据集划分为多个不相连的数据块,其中利用随机样本分区机制,确保每个块的统计特征和数据分布与原始整个数据集相似,以减少分布式数据集偏差对模型精度的负面影响。两阶段预聚合方案引入缓冲机制,将每个子森林生成的向量临时存储,然后对分布式子森林进行分层向量聚合,以减轻参数服务器的网络带宽占用,加快聚合过程。系统级备份旨在以很小的内存和磁盘开销备份关键特征空间,防止训练任务失败,增强分布式深度森林的鲁棒性。CERT-DF 框架在 Ray 平台上进行实现,并基于七个知名的基准数据集进行了广泛的实验,评估结果表明 CERT-DF 在计算效率、模型精度、系统资源开销和系统鲁棒性方面优于最先进的方法。
阅读全文
摘要:为应对不平衡回归任务与度量的形式化问题,本文旨在提供一套新颖的模型评估与优化的基准。本文提出了一种自动和非参数方法,用于推断偏向极端值的非均匀域偏好,解决早期工作中潜在正态分布的假设。接着设计了新的评估指标 SERA(平方误差相关区域),它允许优化和评估模型预测极值的能力,同时对严重的模型偏差具有鲁棒性。通过实验表明评估指标 SERA 为选择和优化程序提供了合适的基准、预测模型性能的分析、影响和预测权衡。
阅读全文
摘要:目录进程间通信概述互联网协议 API进程间通信的特征套接字UDP 数据报通信TCP 流通信外部数据表示和编码外部数据表示常用的表示和编码方法远程对象引用组播通信网络虚拟化和覆盖网络参考资料 进程间通信概述 进程间通信(interprocess communication)主要讨论了分布式系统进程之间
阅读全文
摘要:目录分布式系统分布式系统的趋势泛在网络和互联网移动和无处不在计算分布式多媒体系统作为公共基础设施资源共享分布式系统的挑战异构性开放性安全性可伸缩性故障处理并发性透明性服务质量参考资料 分布式系统 分布式系统的定义是一个其硬件或软件组件分布在联网的计算机上,组件之间通过传递消息进行通信和动作协调的系统
阅读全文
摘要:目录系统模型概述物理模型体系结构模型体系的元素通信实体通信范型角色和责任放置体系结构模式相关的中间件解决方案基础模型交互模型故障模型安全模型参考资料 系统模型概述 在实际情况下,分布式系统存在各种困难和潜在的威胁,例如: 困难和威胁 说明 使用模式的多样性 系统的组件会承受各种工作负载,有些部分可能
阅读全文
摘要:本文结合 Boosting 和 Bagging 的思想,提出了一种新的分类和回归算法 BoostForest。首先提出了一种新的决策树模型 BoostTree,它先在每个节点上训练一个回归模型进行回归或分类,对于给定的输入 BoostTree 将其分类到一个叶节点,然后通过将所有节点模型沿着从根到该叶节点的路径的输出相加来计算最终的预测。接着提出了一种称为随机参数池采样的参数设置策略,BoostTree 的参数从参数池中随机采样,使 BoostTree 比传统方法更容易调整其超参数。然后提出了一种新的集成学习方法 BoostForest,它使用 bootstrap 获得原始训练集的多个副本,然后在每个副本上训练一个 BoostTree。本文在 35 个分类和回归数据集上进行了实验,结果表明 BoostForest 总体上优于多种经典的集成学习方法。
阅读全文
摘要:针对回归任务中分布不平衡的问题,本文提出了几种新的预处理解决方案,包括随机过采样、引入高斯噪声、基于加权相关度的组合策略 WERCS。通过实验表明使用所提出的策略,特别是 WERCS 方法能提高学习器在不平衡回归问题上的性能。
阅读全文
摘要:本文提出了一种名为 DenseWeight 的不平衡回归数据集的样本加权方法,并在此基础上提出了一种名为 DenseLoss 的不平衡回归的成本敏感学习神经网络。DenseLoss 使用 KDE 近似训练目标值的密度函数,将所得密度函数构成计算 DenseWeight 权重函数的基础,接着 DenseLoss 根据 DenseWeight 为训练集中的每个数据点分配一个权重,增加稀有数据点对损失和梯度的影响。本文引入了一个单一的、易于解释的超参数,允许将模型的焦点转移到目标变量分布的稀有区域。使用合成数据分析了 DenseLoss 对常见和稀有数据点性能的影响,并将 DenseLoss 与不平衡回归方法 SMOGN 进行了比较,发现本文的方法通常提供更好的性能。结合将 DenseLoss 应用于严重不平衡的降尺度降水的现实世界问题,表明它能够在实践中显着提高模型性能。
阅读全文