随笔档案「2025年4月」 - 第七子007

LLM大模型：TTRL: Test-Time Reinforcement Learning分析

摘要：1、现在大模型在pre-train完成后，肯定还要做post-train，主要目的是学会chat，并且对齐人类的偏好，主要方式就是SFT和RL，详见：https://www.cnblogs.com/theseventhson/p/18760256；做LLM，有三大要素：算力、算法、token数据了！阅读全文

posted @ 2025-04-28 15:53 第七子007 阅读(643) 评论(0) 推荐(0)

抖音推荐算法部分模型概述

摘要：抖音，一个世界级知名的app，全球拥有十亿级别的存量用户，其官方于近日发布了最核心的技术之一：推荐算法的部分模型，详见：https://95152.douyin.com/article/15358?enter_from=channel_page&channel=home 就其官方披露的信息看，抖音最阅读全文

posted @ 2025-04-18 15:28 第七子007 阅读(572) 评论(0) 推荐(1)

LLM大模型：推荐系统应用-HLLM实战&DSIN

摘要：LLM在NLP领域独领风骚，一战成名！和NLP相比，推荐领域也有类似的业务场景：都是时序数据！既然LLM能在NLP大放异彩，在推荐领域是不是也能尝试一下了？ 1、先简单总结一下推荐系统的发展历史协同过滤 Collaborative Filtering：userCF、ItemCF；原理是根据user 阅读全文

posted @ 2025-04-11 17:38 第七子007 阅读(901) 评论(3) 推荐(0)

第七子007

04 2025 档案

公告