大论文题目类参考
跨层多尺度信息融合多头自注意力机制等
基于多尺度混合注意力卷积神经网络的关系抽取
基于多种注意力机制的面部表情抑郁识别研究
整合众多相关博士论文的 第二章中相关技术的介绍
学会用数据说话
面向径流预测的时序预测模型及其可解释性研究
XAI 中有多少 X:在水文学和水资源中负责任地使用“可解释的”人工智能
https://mp.weixin.qq.com/s/oGJ2y-64uyl2hmw4ynS5Tw
XAI在帮助我们更好地理解复杂问题和模型决策过程中具有巨大潜力。尤其在水文学等领域,XAI能够提供对模型行为和预测结果的透明度,使得研究人员和决策者能够更清晰地理解和解释模型输出。这对于提升模型的可信度和可靠性至关重要,尤其是在影响社会、环境或经济的关键领域。
对于算法可解释性问题,本文使用可解释模型通过特征的贡献度对模型进行解释,再按照贡献度选择特征进行消融实验,从而获得最优的特征组合。
贵州大学文本计算与认知智能教育部工程研究中心;公共大数据国家重点实验室(贵州大学);贵州大学计算机科学与技术学院 | 唐媛 陈艳平 扈应 黄瑞章 秦永彬
经常写 开题报告
可解释性的本质特征 应用中 起到什么作用
再组织内容回答问题
从做例子开始 e.g. LSTM存在的问题
明确你提供的价值
只要符合某些规则 或 可解释性 那么你的模型无论如何变化都能解决问题
跨层与语义扯上关系
针对基于卷积神经网络的关系抽取获取句子语义信息时缺少不同尺度语义特征信息的获取以及缺少对关键信息的关注的问题,提出了基于多尺度混合注意力卷积神经网络的关系抽取方法。首先,将关系抽取建模为二维化表示的标签预测。其次,通过多尺度的特征信息提取与融合,获得了更细粒度的多尺度空间信息,然后,通过注意力与卷积的结合自适应地细化特征图,使得模型关注重要上下文信息。最后,使用两个预测器共同预测实体对之间的关系标签。实验结果表明,多尺度混合卷积注意力模型能够获取多尺度语义特征信息,通道注意力和空间注意力通过权重来捕捉通道和空间的关键信息,以此来提升关系抽取的性能。本模型在数据集SemEval-2010 task 8、TACRED、Re-TACRED和SciERC的性能F1值分别达到90.32%、70.74%、85.71%和89.66%。
一般要从带投稿论文的参考文献里面选择外国人,你要选择国内人的话,心胸一般比较狭隘。有些需要附着理由的话,你就写一下他和你的领域相关之类的推荐,他做审稿人。
分解的结构图,用visio画
LSTM结构--自注意力层--LSTM结构--自注意力层(其他的跨层及encoder-decoder)
更换相似性度量层的度量函数?等
Keras 参考:JavaAndPython-Learn a little bit superficially: Java和python的个人学习小结,肤浅地学习一点
https://gitee.com/huang_changba/Learn_a_little_bit_superficially
说耦合模型或混合、堆叠模型不好时:
为了解决这个问题,研究人员一直在改进这些模型结构,以追求卓越的预测性能(Gao等,2022;Wang等,2023a)。 然而,进一步研究发现,目前的结构改进多是通过模型耦合的方式,通过堆叠基础模型来增强学习能力,从而提升预测效果(Chen et al,2023;Chen et al,2020;Panahi et al,2023)。这种方式虽然有一定效果,但缺乏对模型的针对性修改,导致了大量不必要的复杂性冗余(Hu et al,2021;Wang et al,2023d)。复杂神经网络模型在处理大样本数据任务时确实可以表现出涌现效应,从而大幅提高准确率(Wei et al,2022)。但水文数据有其独特之处,对于相对较小的特征样本,往往不需要构建过于复杂的神经网络结构,复杂模型在测试过程中更容易出现过度参数化问题,限制了其广泛应用(Beven,1989;Kaplan et al,2020)。
根据驱动机制,主要分为过程驱动和数据驱动(Chen et al, 2019; Liu et al, 2021)。过程驱动模型以明确的物理机制为基础,有助于全面了解洪水过程。然而,这些模型需要精确的边界条件和复杂的计算(Chen et al, 2022b; Zou et al, 2023),大量的数据需求、计算复杂性和时间成本对预测精度的进一步提高构成了重大制约(Jodhani et al, 2023; Wang et al, 2024)。相反,数据驱动的水文模型不受物理条件的限制,可以直接建立输入数据和目标之间的关系。值得注意的是,神经网络模型由于其出色的预测能力,已在洪水预测任务中得到广泛应用(Chen et al, 2022a; Feng et al, 2020; Hu et al, 2019)。无论在洪水流量预测、淹没区域分析还是洪水敏感性分析等方向,神经网络模型都取得了良好的效果(Al-Areeq等,2023;Tripathy和Mishra,2024),因此越来越多的研究者将研究重点转向神经网络模型(Shao等,2023;Wang等,2023b;Xu等,2024)。 现有的神经网络模型按照数据处理逻辑可以分为几类:循环神经网络(RNN)模型、卷积神经网络(CNN)模型、基于注意力机制的模型(Elman,1990;LeCun等,1989;Vaswani等,2017)。循环神经网络(RNN)具有渐进式架构,更符合洪水序列的时空分布特征;因此,这些模型广泛应用于基于神经网络的洪水流量预测任务(Cao等,2022;Gao等,2020;Li等,2021)。其他神经网络模型利用各自的优势,也在洪水预测中得到应用(Ghimire等,2021;Wang等,2023c;Zhang等,2023)。然而,由于神经网络的黑箱性质,解释洪水过程预测背后的工作机制具有挑战性。这引发了人们对模型预测可靠性的担忧(Wu等,2023)。为了解决这个问题,研究人员一直在改进这些模型结构,以追求卓越的预测性能(Gao等,2022;Wang等,2023a)。 然而,进一步研究发现,目前的结构改进多是通过模型耦合的方式,通过堆叠基础模型来增强学习能力,从而提升预测效果(Chen et al,2023;Chen et al,2020;Panahi et al,2023)。这种方式虽然有一定效果,但缺乏对模型的针对性修改,导致了大量不必要的复杂性冗余(Hu et al,2021;Wang et al,2023d)。复杂神经网络模型在处理大样本数据任务时确实可以表现出涌现效应,从而大幅提高准确率(Wei et al,2022)。但水文数据有其独特之处,对于相对较小的特征样本,往往不需要构建过于复杂的神经网络结构,复杂模型在测试过程中更容易出现过度参数化问题,限制了其广泛应用(Beven,1989;Kaplan et al,2020)。
可解释pdp图 也可从sklearn中导入:from sklearn.inspection import PartialDependenceDisplay
在流量预测领域,XGBoost结合SHAP方法开发的可解释机器学习模型也取得了显著成效[4]。通过在美国两个集水区的实验,结果显示XGBoost在多个性能指标上优于回归树和随机森林,展现了其在流量预测中的优势。SHAP分析进一步揭示了输入变量对流量影响的差异性和复杂性,特别是非单调关系和变量交互作用的强度,为理解机器学习模型提供了新的视角。
第七章全文总结与展望
7.1本文工作总结
尽管深度学习模型因其出色的性能而被广泛应用于多个领域,但这些模型的黑盒特性和可解释性困境已成为限制其更广泛应用的关键因素。目前,神经网络的事后可解释性方法目前已有较为广泛的研究,但事前的神经网络可解释性学习仍是个开放性问题。本文探讨了深度神经网络的可解释性问题,并从事前的可解释性学习角度给出了相应的解决方法,并延伸研究了可解释性应用。神经网络的可解释性可以直观地被描述为:在模型做出决策时人们希望得知其决策思路;对模型本身人们希望得知其内部语义。因而,神经网络的自身可解释性有三个待解决的问题:神经网络决策思路不明、神经网络内部表征混乱、神经元个体语义模糊。为此,本文从模型透明设计、特征可解释性约束与神经元隐语义表征三个方面展开研究,尝试为以上三个难题提出有效解决思路。同时,本文深化隐语义解释的人类优友好性,为可解释性应用提供有效人机交互信息。本文核心贡献与结论总结如下:
第一,本文从透明网络设计的角度去尝试解决模型决策思路不明问题。该研究的核心贡献是基于元学习的类别层次自动构建方法,实现了树形神经网络的端到端训练。此前的类别层次构建基于离线聚类方法,将各类表征下的类别聚集为超类并搭建不同的层次结构,存在流程复杂且缺乏有效性验证等问题。本文以表征空间中的类别样本的中心为类原型,以批次迭代版本的聚类过程作为类别层次的构建过程,基于错误驱动实现对类别层次和模型参数的同时学习。在图像数据集分类任务中,所提出的方法均超过现有树形神经网络,甚至包括集成学习算法,而且在大型图像数据集的复杂任务中的优势更为突出。在可解释性实验中,本文展示了所学到的类别层次的合理性与树形神经网络中不同分支模块的语义可视化图。树形神经网络讲复杂任务分解为有限数量的不同层级子任务,提升模型性能的同时,支持模型对于个体实例预测思路和全局决策模式的树形解释。
第二,本文从可解释性约束的角度去尝试解决模型内部表征混乱问题。该研究的核心贡献是提出了基于生物大脑启发的神经元同步方法,通过约束引导功能分区,实现了模型内部自发的功能模块划分,同时提出了对可解释性的多角度度量方法。已有的神经网络特征的可解释性约束方法严重依赖类别、语义数据等先验信息,或者每阶段训练后聚类得到簇信息。本文首先约束单个神经元特征的复杂度使其表征简单的语义模式,并在神经网络的动态训练中引入神经元同步机制,聚合具有相似语义神经元实现功能模块自发划分。图像分类任务的结果显示,本文所提出的模型在性能不出现明显下降的同时,达成了对多分类神经元语义可解释的明显提升。除此之外,从本文倡导的可解释性多角度度量结果可以看出,本文的方法同样实现了在可解释性的稳定性、纯度、多样性上的提升。全局平均激活图可以直接看出模型特征准确、纯净、多样的解释结果。
第三,本文从神经元语义表征的角度去尝试解决模型个体神经元语义模糊问题。该研究的核心贡献是提出了基于隐语义嵌入的个体神经元功能表征方法,突破了现有方法对语义注释强依赖且解释不全面的困境,实现了对神经网络所有神经元的软性描述与剖析。已有的隐语义可解释性方法通过比对语义注释与神经元激活图,以其相似度(例如交并比)分数来硬性指派语义,但容易受限于标注数据及其内容不足的限制。本文基于词嵌入思想,以神经元间模式响应语义的条件概率为统计信息,将神经元响应过的语义模式总结为功能嵌入向量,然后基于前传结构中的硬注意力机制保证解释的忠实性,并基于同步机制压缩解释信息,实现了对神经网络中每个元素有效简明的解释。在神经元全局语义解释的验证中,相比于已有的神经元隐语义解释算法,该方法的神经元语义解释呈现了与标注最为匹配的度量结果。定量实验的结果同时指明了该方法在单个样本的局部解释中通过前馈决策路径呈现出忠实、鲁棒和简明的解释。在此基础上,本文直观地展示了可解释性训练后的神经网络中,每层聚合的功能模块在自底向下的信息路径。
第四,本文从转换自然语言的角度去尝试解决解释有效交互信息不足问题。该研究的核心贡献是提出了基于语义枢轴点的嵌入对齐和语言大模型的信息转译,并通过反向过程将人类信息传递给模型,实现了一套完整的人机互联框架。已有的神经网络可解释性应用中,解释信息以重要性权值、代理模型或其他复杂的形式,对于非专家使用者存在理解障碍且难以形式有效的人-机通路。该研究以经元的功能嵌入为神经元全面解释的基础,通过将功能嵌入与词嵌入进行语义对齐并由语言大模型进行转译,以自然语言的形式实现人类友好的解释,并利用各项过程的逆过程实现反向知识映射,形成完善的人-机互联框架。除开在定量实验中该研究的方法在可解释性准确性上的优势保证,在个体神经元、跨层神经元关联、类别语义分解的定性结果中,也展示了此解释方法的有效性和人类友好性。而基于逆过程的人-机通路实现了对模型的定向修改,打通了人在回路链条,进一步增加模型的信任度。同时,由隐语义作为静态知识的机-机通路实现了高效的知识蒸馏,展现出了快捷有效的知识迁移潜力。
7.2未来工作展望
神经网络的可解释性是当前人工智能领域研究的热点之一,尤其是在需要高透明度和可理解性的应用场景中。但现有的研究仍存在着可解释性学习算法的研究不充分,缺乏有效评估等问题,需要未来的工作进一步补足。同时,在大模型快速发展和推广的今天,对于大模型安全、隐私、监管等需求正极速催生着可解释性的相关研究。本节对神经网络可解释性学习的潜在研究方向总结如下:(1)更全面的可解释性学习算法。由于可解释性学习需要从头开始训练模型,可解释性设计可能增加模型的训练的时间和空间复杂度,同时影响模型性能,未来的可解释性学习算法研究应当关注训练效率与模型性能齐佳的可解释性学习方法。除此之外,解释可读性是可解释性方法的根本要素与应用基础,是未来工作中需要探讨的要点。最后,面向特定的场景为特定的人群开发特定的解释方法,会是可解释性方法迈向实际应用的坚实步骤。(2)全方面的可解释性评估指标。神经网络的可解释性评估是衡量解释质量的重要环节,是指引可解释性算法前进的方向。现有的可解释性评估指标主要针对基于归因的解释方法,对基于样本、基于隐语义、基于规则的可解释性相关评估指标的研究较少,对事前的网络透明设计也缺乏相应评估。对好的解释的多样性定义催生着解释的多方面评估,同时,解释信息的类型也会对评估指标的适用性提出挑战。(3)可解释性的在大模型中的应用。大模型以其前所未有的性能和可交互性快速渗透人类生活,为了规范化其运行并引导正确发展方向,大模型的安全、隐私和监管需求成为了其基本要素。首先,大模型在一般深度学习模型的极度非线性的基础上膨胀出巨量的模型参数,进一步为可解释性方法提出难题。其次,大模型的运行成本本身就相对较高,则希望加入可解释性因素之后的时间空间复杂度要尽可能小。然后,如何在解释大模型的时候不牵扯出数据信息,满足监管要求的同时不过度降低模型性能,也是有实用意义的研究方向。这些研究方向都指向了提高神经网络可解释性的核心挑战,旨在通过创新算法设计、尊重落地需求、完善评价指标、关注前沿应用,来推动可解释性学习的进展。
多头注意力(Multi-Head Attention)是Transformer的核心,其用于计算输入序列中每个单词与其他单词之间的相关性,增强上下文信息关联,同时捕捉长距离依赖关系。
基于深度隐因子模型的推荐算法优化及可解释性研究
摘要[12]
随着大数据时代的到来,信息过载问题的重要性逐渐凸显并受到越来越多的关注。推荐系统通过用户的历史行为分析其需求偏好,从而帮助用户筛除冗余信息,提供个性化的推荐结果以缓解信息过载的问题。近年来,推荐系统已成为一个重要和热门的研究领域,并在各类媒体、娱乐、电子商务等互联网场景中得到了广泛的应用并产生深远的影响。推荐算法是推荐系统的核心,其主要原理在于通过收集用户历史行为中的正负反馈信息,为每个用户分别建模其个性化偏好,再以此为基础从海量的目标物品中筛选出用户最有可能需要的物品集合进行内容推送。推荐算法的技术路线经历了从经典的协同过滤算法到隐因子模型再到深度学习时代下的深度隐因子模型的变革。本文的主要研究问题是基于深度隐因子模型的推荐算法的优化及可解释性。
目前的基于深度隐因子模型的推荐算法在隐式反馈及高阶交叉特征建模等典型场景中存在有一定的结构性问题,限制了模型的预测性能;另外,基于深度隐因子模型的推荐算法主要依赖于深度神经网络,考虑到神经网络是黑盒模型,其推荐结果往往难以给出直观的解释。
本文基于深度隐因子模型,针对隐式反馈和高阶交叉特征建模场景的隐因子模型结构和隐因子模型的可解释性分析算法进行了研究与优化:首先针对隐式反馈下的协同过滤问题,设计了基于对偶嵌入向量的深度隐因子模型结构,以缓解负样本噪声和正样本稀疏对模型预测性能的影响;接着针对点击率预估中的高阶交叉特征建模问题,设计了基于任意阶交叉特征的自适应分解网模型,以解决高阶交叉特征建模中的阶数选择和特征筛选问题;最后引入了扰动函数分析技术,通过计算深度隐因子模型的训练数据对于其预测结果的扰动度,为模型推荐结果提供事后的可解释性分析。本文的研究成果包括:
1.基于对偶嵌入向量的深度隐因子模型针对隐式反馈下的协同过滤问题,论文提出了基于对偶嵌入向量的深度隐因子模型。现有工作在隐式反馈下建模的用户和物品的原始嵌入向量在优化过程中容易受到负样本噪声和正样本稀疏的影响,进而损害模型的预测性能。论文设计了用户和物品的对偶嵌入向量表示,将每个用户(或物品)利用其历史交互物品(或用户)和注意力机制生成一个额外的嵌入向量表征以补充其原生嵌入向量的表示效果,并设计了两两配对的神经网络交互层进行对偶嵌入向量的交互建模及融合预测。另外,论文还将该模型架构拓展到了时序推荐场景,并验证了其对于时序推荐的适用性和有效性。
2.基于任意阶交叉特征的深度隐因子模型针对点击率预估中的高阶交叉特征建模问题,论文提出了优化任意阶交叉特征的深度隐因子模型。现有的点击率预估模型常常通过构建显式的交叉特征以补充深度神经网络在复杂特征交互建模中的局限性。然而,其构建的显式交叉特征往往受到预定义的最高特征阶数所限制,因而只能在建模的特征阶数和计算复杂度之间进行权衡,同时还容易受到无关特征的干扰,难以达到最优的预测效果。论文设计了自适应分解网模型,通过引入对数神经转化层从训练数据中自适应地优化任意阶的交叉特征及其对应的权值,从而有效提升模型的特征建模和预测性能。3.基于扰动函数的隐因子模型可解释性分析隐因子模型如矩阵分解、神经协同过滤模型等相比传统的协同过滤算法往往能达到更好的预测精度,但却缺少模型的可解释性。现有工作大多通过引入辅助信息或修改限制模型结构以为隐因子模型的预测结果提供解释。论文提出一种基于扰动函数的事后分析方法,在不改变原有隐因子模型结构的基础上,通过扰动函数计算训练数据对于一个已训练的隐因子模型的预测影响,从而为其推荐结果在历史用户-物品交互记录中找到相应的解释。论文还利用了隐因子模型结构简化了扰动函数的计算过程以显著减少了总体计算的时间复杂度。论文在多个公开数据集上对所提出的算法进行了实验,实验结果说明了所提出的基于对偶嵌入向量的深度隐因子模型和基于任意阶交叉特征的自适应分解网模型相比现有的对比方法的优势,并验证了扰动函数分析方法解释结果的有效性。相关研究成果对于基于深度隐因子模型的推荐算法的设计具有一定的指导意义。关键词:推荐系统,深度学习,隐因子模型,隐式反馈,交叉特征,可解释性。
摘 要[10]
深度神经网络作为高效而复杂的机器学习模型,正逐渐渗透到生活中的各个领域,但其黑盒性质引发了对实际应用中模型决策可信度的担忧。因此,神经网络可解释性逐渐成为学术界和工业界的热点话题,旨在对模型的决策依据和模型内部语义模式给出直观的解释,增强模型的可信度和安全性。目前,神经网络可解释性的一些相关工作逐渐被提出,但仍面临众多挑战。首先,由于神经网络模型包含巨量的参数,并且激活函数引入的非线性性质使得层与层之间的信息传递呈现极度非线性,带来样本决策路径错综复杂难以解释、模型内部表征纷繁混乱缺乏功能分区、无法有效探索每个神经元隐语义等问题。其次,神经网络可解释性算法在落地中存在人类友好的交互信息不足的问题,阻碍了其实际应用。
针对上述问题和挑战,本文分别就神经网络决策路径、内部表征、神经元隐语义的可解释性学习算法和人类友好的神经网络可解释性应用两个特定角度展开研究。本学位论文的主要贡献与创新点如下:
1、针对神经网络决策路径不明的问题,本文从模型的透明设计出发,提出了树形神经网络自动构建方法,实现了信息在有限数量的语义分支模块中传递的直观可解释性。已有树形神经网络的构建基于离线聚类形成类别层次,每个类别簇处理相似的语义并用于训练不同的分支模块,但这类做法存在流程复杂且类别层次的有效性缺乏检验等问题。与之相对的,本文算法通过类别原型表征将类别的聚类过程可导化,在元学习的范式下通过分类误差进行统一学习,实现了有效的类别层次自动构建与树形神经网络的端到端训练。定性实验通过解释分析展示了所构建树形神经网络的决策路径可解释性。多个图像分类数据集上的实验表明,提出的模型有效分解了任务模式,使得模型分类精度优于相关方法,尤其是在复杂任务中优势更加明显,提升了1%-4%。
2、针对神经网络内部表征混乱的问题,本文从可解释性约束出发,提出了基于脑启发的神经元同步算法,实现了训练过程中神经元自发形成不同的功能分区,同时扩展了神经元激活特征可解释性度量的维度。与现有从信息学角度的特征可解释性约束方法不同,该方法受启发于生物神经学对大脑的研究。根据神经元随着年龄增长逐渐同步形成不同的功能脑区,且功能脑区内的神经元对一个模式共同响应完成高阶功能的现象,该算法通过神经元间的同步机制,聚合多个具有简单语义的神经元以共同表征一个高阶语义,促使神经网络在训练过程中自发地在内部形成针对特定模式的功能模块。在对神经元激活图特征的可解释性验证中,除开解释的准确性之外,在针对解释的纯净性、稳定性和多样性的全方位度量中,提出的算法获得了各指标平均10%的提升,验证了所提出算法具有优秀的特征可解释性。
3、针对神经网络个体神经元隐语义模糊的问题,本文从神经元语义表征出发,提出了神经元隐语义嵌入方法,实现了对于神经元的软性描述与剖析,并探索了针对神经网络隐语义的局部与全局解释的定量评价指标。此前的神经元隐语义解释方法一一比对神经元激活与图像语义标注,将神经元响应程度大于阈值的语义指派给该神经元。相较于此类对细粒度标注强依赖和对所有神经元解释不全的方法,本文提出了一种神经元功能嵌入的表征方法,基于类似词嵌入的思想,仅通过神经元自身对样本的激活作为数据,训练得出每个神经元的功能表征。在此基础上,使用了由功能嵌入引导的信息硬路由,确保了前向传播中神经元对于对应语义的特异性响应,同时引入同步机制压缩了过多细碎的个体神经元灰盒解释。定性实验展示了神经网络每层中聚合的功能模块分布和自顶向下的信息路径。在隐语义可解释性的定量指标上,提出的方法取得了对全局语义解释的最优准确度,并在对局部样本的语义归因解释中显示出最佳的解释忠实度、鲁棒性和复杂度。
4、针对可解释性应用中有效人机交互信息不足的问题,本文从解释的全面性和人类友好性出发,提出了一套基于神经元隐语义嵌入对齐与大语言模型信息转译的人机互联框架,实现了对模型内部语义直观有效的解释,并在模型-人链路之外,进一步探究了人-模型和模型-模型的完整人机互联链路。相对于当前面向专家的灰盒解释方法,该方法以自然语言作为交互媒介,在对所有神经元功能嵌入的基础上,通过语义嵌入对齐和大语言模型作为信息转换机制,实现了直观有效的人-机通路,并通过相应的逆过程将人/模型信息反向映射到对应模型中,完善了人机互联框架。为了验证该框架的有效性,本文测试了隐语义嵌入在神经网络每一层级中作为全局解释的定量度量,在高解释准确性的基础上,通过个体神经元解释示例、跨层神经元功能关联、类别特定神经元语义解析等定性实验进一步证明了解释的直观、准确和全面。人-机链路实验通过人类指导信息对模型参数的修改,在特定分类任务上展现出分类准确率定向变化。机-机链路的知识蒸馏任务中的优秀结果证明,神经元语义嵌入作为静态知识实现了高效的模型-模型知识迁移。
摘 要
[11]时序投资组合问题在计算机应用领域中占据重要地位,涉及数学、统计学、人工智能等领域方法,用于分析和建模金融市场数据,制定有效的投资策略。随着技术的不断发展和研究的深入创新,基于深度学习的投资组合方法显著提升了投资效率和风险管理水平。然而,目前大多数研究仅关注投资回报或简单地将某些宏观市场数据作为风险指标,或者假设资产间相互独立,亦或者预设依赖于先验领域知识的图结构,忽略了相关资产交易数据之间潜在的协同作用。这在应对动态复杂的市场环境和时序数据的特征多样性方面显然不足够。此外,时序数据预测结果的可解释性也是一个充满挑战的问题。理解模型为何做出特定的预测结果对于建立人类信任和接受模型决策至关重要。本文侧重应用研究基于深度强化学习对投资组合策略的回报-风险优化算法,及模型预测结果的可解释性。主要的研究工作包括:
(1)针对投资组合收益和风险平衡问题,本论文提出了一个名为Mercury的框架模型。该模型将强化学习融入到股票筛选过程中,以生成既能够有效承受风险又能保证回报的投资组合。Mercury模型中历史特征表示学习和市场偏好敏感度建模两个模块,用于提取交易数据特征和建模市场的偏好。其中,历史特征表示学习模块考虑了数据的时序和空间信息,并结合行业关系利用超图网络动态地学习资产间的相关性;市场偏好模块通过训练市场评论文本数据,引入多头时间注意力机制自适应捕捉长时间跨度的热度信息,学习并预测市场情绪趋势。综合评估资产的表现,本文将投资组合的构建融入强化学习过程,进而学习风险-回报平衡的投资组合策略。实验结果表明,相较于其它现有方法,本论文所提出的Mercury模型能够有效平衡投资组合的回报和风险。
(2)针对时序数据在深度学习中的实例级可解释性问题,本文提出了一种基于强化学习的原型图构建方法。该方法借鉴了原型学习的思想,通过强化学习的框架构建原型图,用于实例级解释深度学习模型的预测结果。为了更好地捕获时序数据中的复杂关系,并为后续原型图构建提供更具信息量的节点表示,我们将ConvLSTM改进为GcnLSTM,并使用GcnLSTM对源图数据集进行图级嵌入表示学习和节点特征重要性评估。为了减少节点匹配的计算复杂度,使用高斯混合网络对源图进行目标类的精确图表示,捕捉源图数据中目标类的核心结构和特征。对于目标类的精确图,通过强化学习发现源图中与目标类最相关的节点,进而构建原型图,并从源图和原型图之间特征数据的分布相似度和预测能力两个方面共同训练网络模型参数。实验表明该方法下找到的原型图对时序数据预测结果能够提供合理、可信且稳定的解释。
最后,为了实现多任务的高精度预测,提升多源多维输入下深度学习模型的可解释性,本研究提出了多预测任务一体化实现及其多源多维细粒度解释方法。
高寒冰川流域径流的准确模拟与预测对于水资源的综合管理与利用具有越来越重要的意义。本文采用长短期记忆(LSTM)人工神经网络算法,对中亚天山两个数据稀疏的冰川流域的日流量进行了模拟。另外两种经典的机器学习方法,即极端梯度增强(XGBoost)和支持向量回归(SVR),以及分布式水文模型(土壤和水评估工具(SWAT)和扩展SWAT模型(SWAT_Glacier)也被用于比较。本文旨在为气象观测资料不足的高寒冰川地区的流量模拟提供一种高效可靠的方法。本研究的两个典型流域为南天山阿克苏河的主要支流库马里克河和托克干河,以冰雪融水和降水为主。对比分析表明,LSTM的模拟结果与观测结果最吻合。库马尔里克河流域训练期和试验期LSTM的绩效指标Nash-Sutcliffe效率系数(NS)和相关系数(R-2)均大于0.90,托克干河流域的NS和R-2均大于0.70。与经典的机器学习算法相比,LSTM在大多数评估指标上显示出显著的优势。XGBoost在训练期间也有很高的NS值,但容易过拟合放电。与广泛使用的水文模型相比,LSTM在预测精度方面具有优势,尽管数据输入较少。此外,LSTM只需要气象数据,而不需要底层数据的物理特征。作为SWAT的扩展,SWAT_Glacier模型在流量模拟中表现出较好的适应性,优于原有的SWAT模型,但代价是增加了模型的复杂度。与复杂的半分布式物理水文模型相比,LSTM方法不仅省去了繁琐的水文参数定标过程,而且显著降低了计算时间和成本。总的来说,LSTM在处理冰川流域稀缺的气象数据方面显示出巨大的希望。
数据集固有的空间异质性,特别是那些观测到的洪水记录有限的数据集,往往使通过传统ML模型进行城市洪水易感性评估面临的挑战复杂化(Wang et al ., 2023b)。相反,XGBoost避免了不适当的权重,使其更符合现实世界的场景(Bhattacharjee等人,2020
本文以干旱半干旱区短期降水预报的应用为重点,研究了非平衡二元分类问题。具体而言,我们提出了一种新的提升型方法,利用广义极值(GEV)分布作为链接函数,采用梯度树提升算法捕捉协变量之间复杂的相互作用。该方法具有识别罕见降雨事件和量化不确定性的优点;它是数据驱动的,不假设协变量与降雨事件之间的关系;该模型具有较高的可解释性,是研究干旱半干旱区降雨机制的有效工具。在两个真实数据集上的实验表明,我们的方法优于其竞争方法。
窗口注意力机制在减少计算复杂度的同时,还能保持模型的表达能力。比如模型econtextformer在头像压缩任务重,实现了速度提升210倍的效果。主要在于窗口注意力机制能将输入图像或数据划分为多个不重叠的窗口,每个窗口内部独自进行注意力计算,从而显著减少模型的计算需求,因为每个窗口内的计算,进依赖于该窗口内的像素,而与图像的的大小无关,
通道空间注意力结合,四边形注意力、变化窗口注意力等。
特征融合与注意力机制最新创新方法
特征融合是深度学习中的一种重要技术,能够助理模型性能提升,目前溢油 的特征融合方法已经取得了显著的进展,但还存在一些挑战问题。
1.自适应多尺度注意力机制今年特征融合领域的一个重要创新
这种机制能够在不同尺度上动态地调整注意力的焦点,以更好地捕捉和整合来自不同源的特征。
在实际应用中,如图像识別或自然语言处理,数据特征可能在不同的尺度上表现出不同的重要性
2.跨模态特征融合的深度注意力网络
可以更有效地识別和利用不同模态数据之间的关联和互补信息。
例如,可以将文本中的关键信息与图像中的重要特征结合起来,以提更全面的数据解释和分析。
3.上下文感知的动态注意力机制
能够根据数据的上下文信息动态调整注意力的分配。这种注意力机制可以根据上下文的变化,调整对特定特征或数据段的关注度,从而提高模型的理解和预测能力。这种方法不仅提高了模型的准确性,还增强了对复杂或模糊数据的处理能力,特别是在语义分