qdgy----  

为什么语言模型用文字接龙,图片生成不用像素接龙呢?---浅谈生成式人工智能的生成策略

一.文字

文字由Token构成

二.图像

图像由像素(Pixel)构成

三.声音

  • 声音由取样点(Sample)构成
  • 取样率(Sampling Rate):每秒取样点的个数

四.生成式人工智能的本质

根据条件把基本单位用正确的排列组合起来

15_a

五.生成的策略(Autoregressive Generation,AR)

  • 基本单位的接龙,在文字上已经运用的非常好
  • 生成图像是利用像素接龙
  • 生成声音是利用取样点接龙(WavNet)

15_b

六.生成图像和语音时,Autoregressive Generation不切实际

  • 一张1024x1024解析度的图片,LLM要做100万次接龙,工作量太大
  • 一段语音的取样点也太多,工作量太大

七.Non-autoregressive Generation

  • Non-autoregressive(NAR):平行计算,一次生成所有基本单位

15_c

  • 文字也可以用Non-autoregressive Generation,[END]符号之前的作为生成的答案

15_d

  • muti-modality problem:Non-autoregressive Generation品质较差,平行生成时往往需要AI自行脑补,会产生很多不同可能的输出,最终组合生成的东西可能是四不像,所以可以让每个位置需要脑补的信息进行同步来消除这个问题

15_e

八.Autoregressive+Non-autoregressive

  • 可以让Autoregressive Model生成一个精简的版本,再用Non-autoregressive Model生成一个精细的版本
  • 利用Encoder(压缩)和Decoder(解压缩),它们可以是类神经网络,也可以是学习得到

15_f

九.多次Non-autoregressive Generation,多次更新图片

  • 由小图到大图
  • 从有杂色到没有杂色(Diffusion Model)
  • 每次把生成的不好的地方涂掉

十.小结

15_g

posted on   qsc789  阅读(27)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具
 
点击右上角即可分享
微信分享提示