会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wangssd
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
33
下一页
2026年1月4日
粒子群算法PSO/强化学习
摘要: 强化学习(Reinforcement Learning, RL)和粒子群算法(Particle Swarm Optimization, PSO)是两类不同范式的智能优化方法。 1)动态序贯问题:环境一直在变,每一步的决策会影响下一步的环境,需要连续调整策略,追求长期整体最优。→ 用强化学习 2)静态
阅读全文
posted @ 2026-01-04 14:54 wangssd
阅读(46)
评论(0)
推荐(0)
2025年12月31日
粒子群优化算法(Particle Swarm Optimization, PSO)
摘要: 粒子群优化(Particle Swarm Optimization, PSO)是一种基于群体智能的随机优化算法,模拟鸟群、鱼群的群体觅食行为,通过个体间的信息共享和协作在解空间中寻找最优解。 在自然界中,鸟群觅食会表现出两个核心特征: 社会信息共享: 单只鸟不知道食物(最优解)在哪里,但会关注附近哪
阅读全文
posted @ 2025-12-31 14:20 wangssd
阅读(211)
评论(0)
推荐(0)
2025年12月30日
市场估值 PE(市盈率)/ PEG(市盈率相对盈利增长比率)
摘要: 收益 每股收益(EPS)是公司 “赚” 了多少钱,每股分红是公司决定 “给” 你多少钱。 核心区别 概念全称含义归属权 每股收益 Earnings Per Share (EPS) 公司的利润。即公司每一股股票背后代表的净利润。 属于公司(虽然理论上属于股东,但公司可以决定怎么花)。 每股分红 Div
阅读全文
posted @ 2025-12-30 09:56 wangssd
阅读(159)
评论(0)
推荐(0)
2025年12月29日
deepspeed/vllm底层原理
摘要: DeepSpeed 聚焦于大模型高效训练(同时支持推理优化),通过分布式技术突破训练的显存、算力瓶颈; vLLM 专注于大模型高吞吐、低延迟推理,核心解决推理阶段的显存利用率和请求处理效率问题。 一、DeepSpeed 底层原理 DeepSpeed 是微软推出的分布式训练 / 推理框架,核心目标是让
阅读全文
posted @ 2025-12-29 14:46 wangssd
阅读(193)
评论(0)
推荐(0)
2025年12月26日
编码器(Encoder) / 解码器(Decoder) / 编码器-解码器(Encoder-Decoder)架构
摘要: 大模型的架构主要可分为编码器(Encoder)、解码器(Decoder)、编码器 - 解码器(Encoder-Decoder) 三大类,不同架构适用于不同的任务场景。 一、 编码器架构(Encoder-only) 核心思想:基于双向注意力机制,能够完整捕捉输入序列的上下文信息,擅长理解类任务。 核心
阅读全文
posted @ 2025-12-26 13:30 wangssd
阅读(132)
评论(0)
推荐(0)
llm 视频/语音对齐(风景视频/虚拟主播)
摘要: 1. 风景视频类型(无需对口型) 1. 文本输入模块 职责:接收用户的原始文本(支持纯文本、带情绪标注的文本,比如[欢快]今天天气很好),做基础校验(非空、长度限制)。 设计要点:支持文本分段(比如按句号 / 逗号拆分,匹配视频镜头节奏)、保留文本的情绪 / 语速标注。 2. 文本处理与拆分模块 职
阅读全文
posted @ 2025-12-26 11:00 wangssd
阅读(64)
评论(0)
推荐(0)
2025年12月24日
文生图、文生视频底层架构探究
摘要: 文本生成图片 Qwen-Image (28B,文生图) 模型大小:57GB https://www.modelscope.cn/models/Qwen/Qwen-Image Qwen-Image-Edit-2509 (28B,图文生图) 模型大小:60GB https://www.modelscop
阅读全文
posted @ 2025-12-24 10:16 wangssd
阅读(96)
评论(0)
推荐(0)
2025年12月19日
ASR和TTS底层解析
摘要: 1. ASR(Automatic Speech Recognition)自动语音识别 通过语音模型将人类语音转化为文本 常见开源/知名模型/工具: Whisper (OpenAI):目前最主流的开源选择,支持多语言,识别精度高。 FunASR (阿里巴巴达摩院):专注中文场景,对嘈杂环境鲁棒性强。
阅读全文
posted @ 2025-12-19 17:54 wangssd
阅读(50)
评论(0)
推荐(0)
Qwen3-VL 视觉Token 数计算
摘要: Qwen3-VL-8B 中图片占用的 Token 数 = 图片分块数 + 固定视觉前缀 / 后缀 Token(通常约 256~1024 个 Token,取决于图片分辨率),具体计算逻辑如下: 一、Qwen3-VL 图片 Token 计算规则 Qwen3-VL 采用「视觉分块编码」方案,和文本 Tok
阅读全文
posted @ 2025-12-19 15:01 wangssd
阅读(976)
评论(0)
推荐(0)
2025年12月17日
llm范式和多agent架构(ReAct、Plan-and-Execute)
摘要: 论文:《ReAct: Synergizing Reasoning and Acting in Language Models》 链接:https://arxiv.org/pdf/2210.03629 背景: 经过适当提示的大型语言模型(LLMs)已经展现出进行推理步骤以推导出算术、常识和符号推理任务
阅读全文
posted @ 2025-12-17 13:53 wangssd
阅读(457)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
33
下一页
公告