02 2025 档案

摘要:蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)是一种在决策过程中进行最优选择的算法,尤其在博弈类游戏和具有复杂状态空间的问题中表现出色。 基本概念 蒙特卡洛树搜索结合了蒙特卡洛方法的随机采样特性和树搜索的结构,用于在大规模的状态空间中寻找最优策略。它通过模拟大量的随机游戏 阅读全文
posted @ 2025-02-28 21:51 xd_xumaomao 阅读(42) 评论(0) 推荐(0) 编辑
摘要:SARSA(State - Action - Reward - State - Action)算法和Q - learning算法均为强化学习领域中用于学习最优策略的无模型算法,二者存在诸多区别,下面从多个方面进行详细阐述: 算法类型与策略特性 Q - learning:属于离线策略(off - po 阅读全文
posted @ 2025-02-28 14:56 xd_xumaomao 阅读(15) 评论(0) 推荐(0) 编辑
摘要:在Q-learning的学习过程中,我们需要维护一个 |S|x|A| 的Q表,当任务的状态空间和动作空间过大时,空间复杂度和时间复杂度都太高,为了解决这个问题,DQN采用神经网络来代替Q表,输入状态,预估该状态下采用不同动作的Q值 神经网络本身不是DQN的精髓,神经网络可以设计成MLP也可以设计成C 阅读全文
posted @ 2025-02-28 11:24 xd_xumaomao 阅读(10) 评论(0) 推荐(0) 编辑
摘要:1. 初始化一个state * action大学的q_table 2. 采用ε贪心策略选择action,得到reward和下一步的状态 3. 根据reward和下一步的状态更新q_table import gym import numpy as np # 创建CliffWalking-v0环境 en 阅读全文
posted @ 2025-02-27 19:17 xd_xumaomao 阅读(3) 评论(0) 推荐(0) 编辑
摘要:下载安装包 Intel 芯片:访问Miniconda 官方下载页面,下载适用于 macOS 的 Intel 版本,即Miniconda3-latest-MacOSX-x86_64.sh。 M 系列芯片:同样在上述官方下载页面,下载适用于 macOS 的 ARM 版本,即Miniconda3-late 阅读全文
posted @ 2025-02-27 14:48 xd_xumaomao 阅读(32) 评论(0) 推荐(0) 编辑
摘要:背景 本文提出了KuaiFormer,号称从根本上重新定义了检索过程,从传统的分数估计任务(例如点击率估计)转变为 Transformer 驱动的next action预测范式,可以更有效地实时获取兴趣和提取多兴趣,从而显着提高检索性能 方法 模型结构如上所示,就是输入用户前n个行为序列,采用tra 阅读全文
posted @ 2025-02-18 20:03 xd_xumaomao 阅读(17) 评论(0) 推荐(0) 编辑
摘要:背景 为了解决推荐中的物品冷启动问题,在召回阶段中往往会增加一路使用内容多模态表征的i2i召回,这路召回由于只使用了纯内容的特征,和老物品便可以公平比较,不会产生因为新物品后验行为少而导致无法被召回的问题。在现有的多模态i2i召回方法在文本侧一般都是用一个BERT经过预训练后生成embedding然 阅读全文
posted @ 2025-02-14 15:21 xd_xumaomao 阅读(21) 评论(0) 推荐(0) 编辑
摘要:背景 目前主流的推荐模型都是ID-based,这种ID-based的模型依赖user合item的交互信息,无法利用item和user的多模态信息,对冷启动不友好。 随着近年来LLM的突破性进展, 业界也在不断探索LLM在推荐系统中的应用, 这里大概可以分成三类: 信息增强: 利用LLM为推荐系统提供 阅读全文
posted @ 2025-02-13 11:54 xd_xumaomao 阅读(62) 评论(0) 推荐(0) 编辑
摘要:Transformer不是编解码器都有的吗?为什么会发展出仅 解/编 码器模型?三者之间有什么不同? 为什么现在的LLM都是Decoder only的架构? 阅读全文
posted @ 2025-02-06 10:27 xd_xumaomao 阅读(44) 评论(0) 推荐(0) 编辑
摘要:LLM常见归一化方法 LayerNorm 在早期的研究中,批次归一化(Batch Normalization, BN)是一种广泛采用的归一化方法。然而,该方法难以处理可变长度的序列数据和小 批次数据。因此,相关研究提出了层归一化这一技术 ,针对数据进行逐层归一化。具体而言,层归一化会计算每一层中所有 阅读全文
posted @ 2025-02-05 17:45 xd_xumaomao 阅读(29) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示