摘要:
Q-learning是强化学习中一种经典的无监督学习方法,通过与环境交互来指导学习; 大部分强化学习都是基于马尔科夫决策(MDP)的。MDP是一个框架,而Q学习是应用了这种框架的一个具体的学习方法。 Q学习的四要素:(agent,状态 s,动作 a,奖励 r) 简而言之,agent从当前状态选择一个 阅读全文
摘要:
其他权重计算方法:https://zhuanlan.zhihu.com/p/112667852 熵权法是一种客观加权法,比主观的加权更具说服力。 熵,描述系统的混乱程度。 在我看来,可以这样理解它:系统混乱,说明了信息的不一致性,而信息又分为我们已知的,和我们未知的。即不需要学习的,和需要学习的。熵 阅读全文
摘要:
RL是一个序列化决策过程,核心思想是通过与环境的不断交互学习获得最大回报; 大部分RL方法都是基于MDP的;MDP的本质是获得一个可以使累计收益最大化的策略,并使用该策略选择最佳动作; 动态规划是RL中的一个关键技术,适用于RL中已知模型求解最优策略的特殊情况,主要有 策略迭代 和 值迭代 两种方法 阅读全文
摘要:
题目地址:http://acm.hdu.edu.cn/showproblem.php?pid=6287 Summarize: 1、分解质因数; 2、二分查找函数lower_bound与upper_bound; 3、注意输入输出超时与初始化; 阅读全文
摘要:
题目地址:http://acm.hdu.edu.cn/showproblem.php?pid=6288 Summarize:1、二分查找答案; 2、自带log函数精度不够,需自己写; 3、注意二分递归的左右区间; 4、计算中可能爆LL,故需尽可能做一步就判断一次; 阅读全文
摘要:
哇,我真的amazing, incredible!! 我只是想写一个简单的邮件,结果他一直报554错误!!! 期间,通过百度,我发现了可能导致 此,讨厌至极的错误,有N多原因; 但我的原因 谜之离谱! Can you imagine!! 我仅仅只是换了目前16-18行的代码,之前是放于9行以后的位置 阅读全文
摘要:
参考博客:https://blog.csdn.net/yjier/article/details/6237697 参考博客:https://blog.csdn.net/mozha_666/article/details/79032751 GB2312区位码 GB2312对所收汉字进行了“分区”处理, 阅读全文
摘要:
题目地址:http://acm.hdu.edu.cn/showproblem.php?pid=6438 获得最大的利润,将元素依次入栈,期中只要碰到比队顶元素大的,就吧队顶元素卖出去,答案加上他们期中的差值,并把新加入的元素用map标记为中间变量,若以后再卖出这件物品,可看做直接由之前的最小值卖出, 阅读全文
摘要:
题目地址:http://acm.hdu.edu.cn/showproblem.php?pid=6446 题目给出的数据为一棵树,dfs扫描每条边,假设去掉某条边,则左边 x 个点,右边 n-x 个点,则经过该条边共有 x*(n-x) 种组合,又因为 1~n 全排列有 n! 种,故 a~b,包含 b~ 阅读全文
摘要:
题目地址:http://acm.hdu.edu.cn/showproblem.php?pid=6440 这题主要是理解题意; 题意:定义一个加法和乘法,使得 (m+n)p = mp+np; 其中给定 p 为素数,m,n 为小于p的数; 费马小定理:am-1 ≡ 1(mod p); 故有 am ≡ a 阅读全文