哆啦哆啦呦 - 博客园

2023年1月15日

摘要：一、研究对象本文研究了POMDP的模仿学习问题，具体来说本文在POMDP中引入了一种的信念表示学习方法，用于生成对抗模仿学习，不同于以往单独训练信念模块和策略，我们对信念模块和策略进行联合学习，使用任务感知模仿损失来确保目标表示更加符合策略目标。为了避免这种潜在的信念退化，我们引入了集中信息性的阅读全文

posted @ 2023-01-15 14:03 哆啦哆啦呦阅读(241) 评论(0) 推荐(0) 编辑

2022年12月9日

用示范克服强化学习中的探索

摘要：主要内容：对比游戏和机器人领域，关键的区别在于探索的难度，这取决于奖励函数的选择和复杂的环境动态性。在博弈中，奖励函数通常是给定的，可以直接进行优化，最新的研究表明，使用稀疏奖励学习可以得到执行期望目标的策略，而不是陷入局部最优。但是奖励稀疏的环境中进行探索是困难的，智能体很少看到奖励信号。本文的阅读全文

posted @ 2022-12-09 15:48 哆啦哆啦呦阅读(124) 评论(0) 推荐(0) 编辑

2022年12月7日

GAIL-PT：一个具有生成对抗模仿学习的通用智能渗透测试框架

摘要：主要内容：本文结合了GAN 和 IL-IRL构成了GAIL，通过专家知识的指导，使用GAIL对智能体进行训练，使其无限接近专家知识库的动作，使得PT的训练过程更加稳定和高效。 GAIL-PT框架介绍：渗透专家知识库的构建：收集不同渗透场景下的PT专家样本，存储成功利用RL/DRL模型时的状态-动作阅读全文

posted @ 2022-12-07 21:28 哆啦哆啦呦阅读(475) 评论(0) 推荐(0) 编辑

2022年11月17日

面向高效网络渗透测试的强化学习

摘要：一、本文的贡献本文提出并且评估了一个基于人工智能的PT系统————IAPTS，系统利用RL技术来学习和再现PT活动。该模块集成了工业框架，能够在未来类似的测试用例中捕获信息、能够从经验中学习和重现测试。 IAPTS将PT环境和任务建模为POMDP问题，并通过POMDP-slover求解。本文仅限于阅读全文

posted @ 2022-11-17 20:57 哆啦哆啦呦阅读(203) 评论(0) 推荐(0) 编辑

2022年11月3日

使用深度强化学习改进POMDP

摘要：论文提出一种ADRQN架构来增强在部分可观测领域的学习表现，架构的特点在于同时考虑动作和观测作为模型的输入。如下图中的模型所示，我们的动作和观测在经过相关的维度变换之后，共同作为LSTM的历史经验输入。这种循环结构能够集成任意长度的历史经验来更好地估计当前的状态。整个过程如算法1所示：实验基于阅读全文

posted @ 2022-11-03 10:50 哆啦哆啦呦阅读(290) 评论(0) 推荐(0) 编辑

2022年8月25日

NIG-AP:自动化渗透测试的新方法

摘要： NIG-AP:自动化渗透测试的新方法一、摘要本文提出了一种NIG-AP信息增益算法用来自动化发现攻击路径。算法将渗透测试形式化为马尔可夫决策过程，并使用网络信息获得奖励，这将会指导代理选择最佳动作，从入侵者的角度发现隐藏的攻击路径。实验结果表明算法的训练时间和有效性都有所改善。在以往的研究中，阅读全文

posted @ 2022-08-25 10:47 哆啦哆啦呦阅读(481) 评论(0) 推荐(0) 编辑

2022年8月24日

使用DRL的自动化渗透测试

摘要：使用DRL的自动化渗透测试一、摘要本文提出了一种方法用来自动化渗透测试的两个阶段。首先，我们利用Shodan搜索引擎收集相关服务器数据，建立网络拓扑图，并利用MulVAL生成相关攻击图，使用传统搜索算法DFS进行结合，找到所有可能的攻击路径。然后采用DQN算法找寻最优路径。二、体系框架框架分阅读全文

posted @ 2022-08-24 09:58 哆啦哆啦呦阅读(242) 评论(0) 推荐(0) 编辑

2022年8月11日

通过深度强化学习自动化后利用

摘要： Title:Automating post-exploitation with deep reinforcement learning 一、摘要为了评估信息系统的安全，我们需要了解攻击者在成功利用后的行为，然而审计需要专家，目前还没有解决方案能够自动化这个过程，本文提出了一种结合DRL和Power 阅读全文

posted @ 2022-08-11 17:42 哆啦哆啦呦阅读(444) 评论(0) 推荐(0) 编辑

2022年8月7日

NASim场景定义

摘要： Nasim中的场景定义了创建一个网络环境所需要的所有必要属性每个场景定义可以被分解成两部分：网络配置，渗透测试者网络配置由以下属性定义：子网：包括子网的数量和大小拓扑：网络中子网的连接方式主机配置：网络中所有主机的IP,OS,Services,processes,firewall 防火墙：阅读全文

posted @ 2022-08-07 22:11 哆啦哆啦呦阅读(315) 评论(3) 推荐(0) 编辑

NASim动作类学习

摘要： NASim环境的动作相关类包含ActionSpace类和ActionResult类。每个动作都继承自基类Action，基类定义了一些常见的属性和功能，不能类型的动作被实现为动作类的子类。实现的动作类型有： Exploit,PrivilegeEscalation,ServiceScan,OSScan, 阅读全文

posted @ 2022-08-07 22:10 哆啦哆啦呦阅读(249) 评论(0) 推荐(0) 编辑

哆啦哆啦

公告