摘要: 【先说条件概率】 条件概率是指在某个事件发生的条件下,另一个事件发生的概率。以下是一个实际的例子:假设你有一副扑克牌(不包括大小王,共52张牌),你随机抽一张牌。我们设事件A为"抽到的牌是红色的"(红心和方块为红色,共26张),事件B为"抽到的牌是心"(红心共13张)。1. 首先,我们可以计算事件A 阅读全文
posted @ 2023-09-30 23:21 bonelee 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 【写在前面】 在sklearn库中,没有直接称为"最大熵模型"的类,但是有一个与之非常相似的模型,那就是LogisticRegression。逻辑回归模型可以被视为最大熵模型的一个特例,当问题是二分类问题,且特征函数是输入和输出的线性函数时,最大熵模型就等价于逻辑回归模型。 【最大熵模型的原理】 最 阅读全文
posted @ 2023-09-30 18:00 bonelee 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 【PPO算法介绍】 PPO(Proximal Policy Optimization)是一种强化学习算法,它的目标是找到一个策略,使得根据这个策略采取行动可以获得最大的累积奖励。PPO的主要思想是在更新策略时,尽量让新策略不要偏离旧策略太远。这是通过在目标函数中添加一个额外的项来实现的,这个额外的项 阅读全文
posted @ 2023-09-30 09:46 bonelee 阅读(4310) 评论(1) 推荐(0) 编辑