为什么语言模型用文字接龙,图片生成不用像素接龙呢?---浅谈生成式人工智能的生成策略
一.文字
文字由Token构成
二.图像
图像由像素(Pixel)构成
三.声音
- 声音由取样点(Sample)构成
- 取样率(Sampling Rate):每秒取样点的个数
四.生成式人工智能的本质
根据条件把基本单位用正确的排列组合起来
五.生成的策略(Autoregressive Generation,AR)
- 基本单位的接龙,在文字上已经运用的非常好
- 生成图像是利用像素接龙
- 生成声音是利用取样点接龙(WavNet)
六.生成图像和语音时,Autoregressive Generation不切实际
- 一张1024x1024解析度的图片,LLM要做100万次接龙,工作量太大
- 一段语音的取样点也太多,工作量太大
七.Non-autoregressive Generation
- Non-autoregressive(NAR):平行计算,一次生成所有基本单位
- 文字也可以用Non-autoregressive Generation,[END]符号之前的作为生成的答案
- muti-modality problem:Non-autoregressive Generation品质较差,平行生成时往往需要AI自行脑补,会产生很多不同可能的输出,最终组合生成的东西可能是四不像,所以可以让每个位置需要脑补的信息进行同步来消除这个问题
八.Autoregressive+Non-autoregressive
- 可以让Autoregressive Model生成一个精简的版本,再用Non-autoregressive Model生成一个精细的版本
- 利用Encoder(压缩)和Decoder(解压缩),它们可以是类神经网络,也可以是学习得到
九.多次Non-autoregressive Generation,多次更新图片
- 由小图到大图
- 从有杂色到没有杂色(Diffusion Model)
- 每次把生成的不好的地方涂掉
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具