2021 年 2月 22 日随笔档案 - 光彩照人

2021年2月22日

摘要：一、推荐中如何定义强化学习的几个元素方式1： Agent：推荐引擎。 Environment：用户。 Reward：如果一条新闻被点击，计+1，否则为0。一次推荐中10条新闻被点击的新闻个数作为Reward。 State：包含3个部分，分别是用户标签、候选新闻的新闻标签和用户前4屏的点击历史（如果阅读全文

posted @ 2021-02-22 17:44 光彩照人阅读(869) 评论(0) 推荐(0) 编辑

利用Flappy Bird来理解Q-Learning(转)

摘要：来源：https://www.zhihu.com/question/26408259 问题分析我们可以通过强化学习（reinforcement learning）来解决小鸟怎么飞这个问题。强化学习中有状态（state）、动作（action）、奖赏（reward）这三个要素。智能体（Agent，指小阅读全文

posted @ 2021-02-22 17:25 光彩照人阅读(472) 评论(0) 推荐(0) 编辑

举例理解强化学习中的Q-Learning算法

摘要：代码实现参考GitHub：https://github.com/gczr/Q-Learning 阅读全文

posted @ 2021-02-22 17:12 光彩照人阅读(228) 评论(0) 推荐(0) 编辑

边缘计算在推荐中的应用（转）

摘要：原文连接:https://mp.weixin.qq.com/s/06ZOgCaW7uWKT5OIMqHyGQ 导读：推荐系统在今天互联网产品和应用中起着举足轻重的地位。一般的推荐系统是基于云端计算中心到边缘 ( 比如手机、平板电脑等 ) 的结构，这其中会由于网络带宽和延迟等导致结果的延迟。边缘的实时阅读全文

posted @ 2021-02-22 14:41 光彩照人阅读(526) 评论(0) 推荐(0) 编辑

光彩照人

每一次挫折都是一次蜕变，挫折越大，蜕变越彻底！

公告