AI_Engineer - 博客园

2025年3月3日

摘要： 1. 加权和 \[merge\_score = \sum_{i} weight_{i} \times pred\_score_{i}\] 优点：非常直观，认为哪个目标重要调大这个目标的融合公式就可以了缺点： 1. 如果不同目标尺度差异过大会导致调参困难 2. 对所有用户都一样，没有用户粒度的个性化阅读全文

posted @ 2025-03-03 17:20 AI_Engineer 阅读(288) 评论(0) 推荐(0)

2025年2月28日

MCTS（蒙特卡洛树搜索）

摘要：蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）是一种在决策过程中进行最优选择的算法，尤其在博弈类游戏和具有复杂状态空间的问题中表现出色。基本概念蒙特卡洛树搜索结合了蒙特卡洛方法的随机采样特性和树搜索的结构，用于在大规模的状态空间中寻找最优策略。它通过模拟大量的随机游戏阅读全文

posted @ 2025-02-28 21:51 AI_Engineer 阅读(2567) 评论(0) 推荐(0)

SARSA算法

摘要： SARSA（State - Action - Reward - State - Action）算法和Q - learning算法均为强化学习领域中用于学习最优策略的无模型算法，二者存在诸多区别，下面从多个方面进行详细阐述：算法类型与策略特性 Q - learning：属于离线策略（off - po 阅读全文

posted @ 2025-02-28 14:56 AI_Engineer 阅读(430) 评论(0) 推荐(0)

DQN算法

摘要：在Q-learning的学习过程中，我们需要维护一个 |S|x|A| 的Q表，当任务的状态空间和动作空间过大时，空间复杂度和时间复杂度都太高，为了解决这个问题，DQN采用神经网络来代替Q表，输入状态，预估该状态下采用不同动作的Q值神经网络本身不是DQN的精髓，神经网络可以设计成MLP也可以设计成C 阅读全文

posted @ 2025-02-28 11:24 AI_Engineer 阅读(275) 评论(0) 推荐(0)

2025年2月27日

Q-learning算法

摘要： 1. 初始化一个state * action大学的q_table 2. 采用ε贪心策略选择action，得到reward和下一步的状态 3. 根据reward和下一步的状态更新q_table import gym import numpy as np # 创建CliffWalking-v0环境 en 阅读全文

posted @ 2025-02-27 19:17 AI_Engineer 阅读(37) 评论(0) 推荐(0)

Mac 安装 Miniconda3

摘要：下载安装包 Intel 芯片：访问Miniconda 官方下载页面，下载适用于 macOS 的 Intel 版本，即Miniconda3-latest-MacOSX-x86_64.sh。 M 系列芯片：同样在上述官方下载页面，下载适用于 macOS 的 ARM 版本，即Miniconda3-late 阅读全文

posted @ 2025-02-27 14:48 AI_Engineer 阅读(897) 评论(0) 推荐(0)

2025年2月18日

LLM4Rec：快手召回KuaiFormer

摘要：背景本文提出了KuaiFormer，号称从根本上重新定义了检索过程，从传统的分数估计任务（例如点击率估计）转变为 Transformer 驱动的next action预测范式，可以更有效地实时获取兴趣和提取多兴趣，从而显着提高检索性能方法模型结构如上所示，就是输入用户前n个行为序列，采用tra 阅读全文

posted @ 2025-02-18 20:03 AI_Engineer 阅读(510) 评论(0) 推荐(0)

2025年2月14日

LLM4Rec：小红书NoteLLM

摘要：背景为了解决推荐中的物品冷启动问题，在召回阶段中往往会增加一路使用内容多模态表征的i2i召回，这路召回由于只使用了纯内容的特征，和老物品便可以公平比较，不会产生因为新物品后验行为少而导致无法被召回的问题。在现有的多模态i2i召回方法在文本侧一般都是用一个BERT经过预训练后生成embedding然阅读全文

posted @ 2025-02-14 15:21 AI_Engineer 阅读(549) 评论(0) 推荐(0)

2025年2月13日

LLM4Rec：字节HLLM

摘要：背景目前主流的推荐模型都是ID-based，这种ID-based的模型依赖user合item的交互信息，无法利用item和user的多模态信息，对冷启动不友好。随着近年来LLM的突破性进展, 业界也在不断探索LLM在推荐系统中的应用, 这里大概可以分成三类: 信息增强: 利用LLM为推荐系统提供阅读全文

posted @ 2025-02-13 11:54 AI_Engineer 阅读(1094) 评论(0) 推荐(1)

2025年2月6日

encoder-decoder、encoder only、decoder only几种不同LLM架构区别

摘要： Transformer不是编解码器都有的吗？为什么会发展出仅解/编码器模型？三者之间有什么不同？为什么现在的LLM都是Decoder only的架构？阅读全文

posted @ 2025-02-06 10:27 AI_Engineer 阅读(419) 评论(0) 推荐(0)

xd_xumaomao

公告