Class 1 达摩院视觉AI技术应用探索

一、视觉生产——定义

通过一个/一系列视觉过程，产出新的视觉表达。
产出:人或机器能够感知的图像视频，而不是标签或特征；
要求:新的，和输入不一样的。
输入（参数/素材）——>过程（视觉生产）——>产出（素材/成品）

二、视觉生产——分类

1.生成:从0到1
2.拓展:从1到N
3.摘要:从N到1
4.升维:从An到An+1（比如2D到3D，静态到动态等）
5.增强/变换:从A到B（改）
6.插入/合成:A+B=C（增）
7.擦除:A-B=C（删）

三、视觉生产——通用基础框架

（请求）输入（参数、素材等）
（分发）生产类型（通用生成、素材合成等）
（服务）视觉生产引擎（生成引擎、搜索引擎）
（响应）输出图像/视频/3D（素材、案例等）

四、视觉生产——五个关键维度（由下至上，由浅入深）

带来用户/商业价值（可用）
提供用户预期的抓手（可控）
保证结果的丰富性（多样）
合乎语义/内容逻辑（合理）
满足视觉/美学表现（可看）

五、精细理解——分割抠图

识别：知道是什么
检测：识别+知道在哪儿
分割：识别+检测+每一个像素是什么

六、视觉生成——框架流程

1.理需求
2.定草图
3.选状态
4.调细节
5.生成图
6.评好坏

素材准备——基础特——智能特效——智能编排

七、视觉编辑

视觉植入：可实现在视频里进行文字、图片的拼接插入或者删除
画幅变化：调整画幅比例、图片尺寸等

八、视觉增强（分辨率、帧率、色彩）

人脸修复增强、渲染图超分、视频超分、插帧、HDR色彩扩展、风格迁移

九、视觉制造

实体设计制造、服装几何生成、多样性拓展等

十、视觉智能开放平台

视觉开放平台

参考

posted @ 2022-10-10 21:27 baixf白小飞阅读(100) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· Class 7 视觉AI训练营参营总结与感想

· Class 3 电子相册搭建（人脸、表情识别）

· 计算机视觉五大核心研究任务全解：分类识别、检测分割、人体分析、三维视觉、视频分析

· OpenMMLab AI实战营第一课笔记

· IOS-计算机视觉与增强现实-全-

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

公告

昵称： baixf白小飞
园龄： 4年6个月
粉丝： 7
关注： 3

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

2022年10月(95)

阅读排行榜

评论排行榜

1. taptap关于王者荣耀评论的爬虫与数据可视化(2)

推荐排行榜

最新评论

1. Re:taptap关于王者荣耀评论的爬虫与数据可视化
--baixf白小飞
2. Re:taptap关于王者荣耀评论的爬虫与数据可视化
作者可提供一下可视化的完整代码吗
--你是真的坑