【活动回顾】Apps Everywhere 上海站圆满结束

2022/11/19 Apps Everywhere 上海

2022年11月19日下午，亚马逊云科技 User Group 上海举办《AI GC 的技术与应用构建》为主题 Apps Everywhere 系列活动，邀请到四位机器学习领域的专家，与大家一同探讨 AI 创作背后的技术及其应用的可能性，让 AI 创作真正成为有益的工具。让我们一起回顾一下活动的精彩内容！

讲师分享内容

01 Shadow《AIGC 应用共创》

Shadow，Mixlab 无界社区创始人/ MixDAO 成员

讲师介绍：毕业于上海交大、同济大学，主要职业：元宇宙创作者、设计黑客、程序员、设计师、老师。目前专注于：社区的孵化。自 2015 年发起 Mixlab 无界社区，目前社区人数已有 5w+，核心成员 1.2w+。

内容概括

从计算生成数字内容、数字艺术到AIGC-人工智能生成内容，介绍 AIGC 目前的应用效果和工作流。Shadow 老师首先进行了自我介绍。作为一名设计师出身的程序员，Shadow 老师跨界设计和软件开发。Shadow 老师自述曾于2017年在人工智能海报生成、2018年在人工智能写作方向进行 AI 创业，回望过去的技术只能做 AI 辅助产品，在海报生成中进行内容理解、颜色提取、信息聚合等辅助工作，智能写作也只是辅助写作（改写、匹配素材、内容审核等），而现如今技术的发展已实现海报、写作内容可由 AI 一键生成，具备创造全新体验的产品可能。Shadow 老师通过以下2个案例介绍了数字内容艺术：1、戒指：每位用户可定制自己的戒指，戒指设计千人千面并可转化为实物。2、音乐可视化+虚拟走秀+AR体验。

接着 Shadow 老师介绍了 AIGC 的一些应用场景：

1、将 AI 用于图像生成，艺术创作不再是艺术家才能完成的事情，普通人只要有一定艺术概念，也能用 AI 生成画作。

下方左图是 AI 生成的超现实主义风格画作，右图则是赛博风格。

2、AIGC 用于文创：传统艺术家往往难以切换风格，通过 AIGC , 艺术家也能在不擅长的风格领域完成创作，甚至任何人都可以创作任何风格。以下是富有中国传统元素的 AI 画作。

AI 能提供更酷炫的艺术表现，人工智能擅长于融合不同实体，在需要想象力的创作上往往比人更具优势。如下猫和海浪的结合、芯片与人的形象的结合，都展现了 AIGC 的丰富想象力。

AIGC 应用于生成游戏里概念场景，之前汇聚不同行业专家才能完成的创作，现在个体借由 AI 即可完成，繁琐的插画工作也可由 AI 代替人完成。

3、AIGC 还可生成视频，通过生成不同人物形象，驱动人物表情，加上 TTS (Text to Speech) 的配音，欣赏一段动画视频《坐看云起时》。

4、Shadow 老师着重介绍了 AIGC 应用于漫画创作，通过 AI 生成图像，人工添加对白，来生成漫画，这是他看好的 AIGC 应用场景。

但其难点是角色一致性。由于 AI 生成难以控制，需要解决人物一致性问题，解决思路如下:

1.可通过生成不同角度人脸库，进行换脸。

2.可预先生成丰富的肢体动作库。

实践中发现漫画风格为写实风时换脸成功率高。

将 AIGC 用于漫画风格复刻，将原图内容词和风格词剥离，保持风格词，替换内容词，即可按某种风格绘制新的内容的漫画。

提供图像作为输入，AI 可对图像做很多变体，如下面水浒传宋江的变体图，以及小屋各视角的图。

最后，Shadow 老师介绍了 AIGC 工作流，通过对白文案生成图像，人工挑选最符合场景的图像。通过这种形式的人机协作，可大幅提高生产效率。利用 AI 创作，个人如同拥有了一支世界上最豪华且廉价的视觉团队。

02 李雪晴《AIGC 的“小众”应用方向》

李雪晴，亚马逊云科技机器学习解决方案架构师

讲师介绍：

一名计算机视觉算法爱好者，在接触视觉算法之前我是一名金融业的行研人员，偶然刷到的几个短视频让我的技术之心彻底觉醒。技术的反馈往往来自于生产认可。然而算法研发到生产发布还有很长一段路，因此我致力于协助客户用最轻便的方式进行算法工程化部署。

内容概括

“AIGC”也就是 AI 生成类模型在今年又跨入了一个新的纪元，更多可达到商业水准的 SOTA 模型接连面世。以近期比较火的 Stable Diffusion 模型为例，开源简单的部署方式让大家都可以很方便的尝试文字生成图片，而生成的图片效果也远远超出了以往人们对于 AI 的期待。我将简单为大家介绍Diffusion 类模型，他们的生产化挑战，以及该类模型的应用场景，诸如设计辅助，声音拟合，内容审核以及工业瑕疵检测等等。

李老师的演讲分为4部分：

Part1：

李老师首先介绍什么是 AIGC . AIGC全称为 AI-Generated Content , 指基于生成对抗网络 GAN 、大型预训练模型等人工智能技术，通过已有数据寻找规律，并通过适当的泛化能力生成相关内容的技术。李老师以 AIGC 在股票上的应用举例，指出 AIGC 不仅受到 AI 技术从业者的关注，而且也受到金融从业者和大众的关注。

AIGC 有多模态、大模型、火热开源的特点，尤其其开源资源丰富、封装度高、可一键启用打包成应用，在工业制造中更易被应用。

Part2：

李老师介绍了主流 AIGC 场景中的应用。

DALL-E 2模型应用的 AIGC 场景包括：

1.通过文字生成图片。

2.图片补全。

3.图片风格转换。

4.通过文本描述进行图片编辑。

AIGC 最适合的场景是我们难以想象的场景。例如我们想让美甲师做出我们想要的美甲风格，然而经过一番描述，实际的美甲效果却没有达到我们想象中的美感，此时利用 AIGC 生成美甲的图样就可以帮到爱美人士。此外包、服饰等也适合用 AIGC 生成设计图。AIGC 还可以生成与图片风格相符的文字。

Stable Diffusion 模型可根据文本生成图片，如我们输入 "a wedding cake with gold tears", 然后发现生成的4张图中左下角的图呈现了我们心目中的效果，又如我们输入 "a golden bathroom with a black tub", 模型就为我们生成了多张浴室设计效果图供我们挑选，此外，该模型也可用于绘画、美妆。

李老师介绍了开源的 Mubert-Text-to-Music 项目，提供了文本生成音乐的模型部署接口。

Part3：

李老师介绍了“小众” AIGC 场景，包括：

内容审核：

1.生成内容的违规性，是否涉黄涉暴。

2.用一些知名 IP 如冰雪奇缘艾莎生成的内容是否侵权。

3.未来身份验证不仅要考虑活体检测，还要检测是否是 AI 生成的视频、人脸。

声音拟合：

李老师介绍了开源的 Mocking Bird 项目，举例 AIGC 在声音拟合方面的应用场景，如在元宇宙中每个用户可拟合自己的声音模型。

并提出难度不在模型训练上，而在于模型管理，如何在同一台机器部署多个模型，需考虑容器化部署及部署成本。

更多三维资产：

AIGC 生成变化连续的图片，但效果差强人意，另外可用 AIGC 生成古建筑图纸。

制造业瑕疵检测的应用：

李老师讲述了一个 Amazon 做过的对有问题零件降噪判别的案例。

Part4：

李老师介绍了亚马逊科技在 AIGC 上对企业的助力，包括：

1.SageMaker 提供弹性资源扩缩容以敏捷适配企业业务扩展。

2.AI 百宝箱：Amazon 将透过客户视角看到的有潜力模型放入 AI 百宝箱中，提供点击式 AI , 企业用户可花更多时间专注于模型训练，而不必在工程部署上耗费过多精力。

03 周金晶《基于云原生机器学习开发平台提高 AIGC 开发效率》

周金晶，TensorChord CTO & 联合创始人

讲师介绍：

本科毕业于上海纽约大学。曾在亚马逊上海人工智能实验室担任机器学习工程师，作为核心成员开发 Deep Graph Library 项目，创立 TensorChord 是致力于打造更好用，对算法科学家更友好的机器学习工具。

内容概括

envd 致力于将算法科学家作为核心用户进行设计，通过对底层基础设施的抽像使得科学家们能轻松使用弹性资源以及隔离干净的开发环境，在提升开发效率的同时，减少计算资源的浪费。本次分享将介绍 envd 的想法来源以及使用方法，展示 envd 能给团队开发带来的优势。

从现有的云原生及机器学习平台出发，介绍 envd 项目的初衷以及设计思路。

用 envd 做展示，运行预训练模型来生成图像。

1、在云原生环境下多套环境动态生成实施方案。

2、在满足多环境需求下云成本优化。

周老师首先进行了自我介绍：

前亚马逊上海人工智能研究院机器学习工程师

Deep Graph Library 创始成员+核心开发者

TensorChord 联合创始人https://github.com/tensorchord/envd

然后周老师阐述了 envd 的产生源于机器学习的痛点：

Part1：机器学习很复杂，需要细分领域工程师（包括数据科学家、软件工程师、后端工程师、DevOps 工程师）合作来完成，周老师认为可以用工具解决工种间沟通成本高的问题。

Part2：新算法层出不穷，从模型研究到生产上线产生商业价值仍有很长一段距离。

Part3：现有工具和从业者知识结构的不匹配，需要有工具弥补 Data Scientist 和 Infra 间的 gap。

Part4：机器学习开发的痛点有：

1.多人共享同一台机器开发，互相干扰（CUDA版2.本不同、库冲突）。

3.对弹性算力要求高（需要调参）。

4.算力紧张（价格高）。

5.对云原生，云计算生态不够了解。

6.训练流水线复杂（数据预处理）。

7.数据集庞大。

Part5：现有的 Data Scientist 和 Infra 的协作模式往往是数据科学家提要求将工单给到 infra team , infra team 配好环境给数据科学家，中间的反复沟通耗费时间成本高。

由机器学习的痛点，周老师开源了envd项目。

1、envd 通过 Python 语法申明环境要求，给每个项目配置隔离的容器化开发环境，免除数据科学家与 infra 反复沟通的耗时耗力。

2、环境信息以代码形式和项目源代码放在一起，开发者拉取 github 代码后可构建一摸一样的环境，本地快速将代码 run 起来, 降低配置环境成本。

3、envd 提供了依赖组件的可复用，例如可通过 include envdlib 方便地安装S3 SDK。

4、envd 实现本地和集群开发体验一致，实现云上开发、本地开发无缝衔接。

5、envd 提供的不仅仅是开发环境，它结合Tensorflow / Pytorch 等深度学习框架，为开发者提供一整套 ML DevOps 解决方案。

04 张小军《EasyAR Mega 元宇宙空间计算平台》

张小军，视+AR CEO

讲师介绍：

视+AR (视辰信息科技（上海）有限公司)创立于2012年，是中国领先的 AR 开放平台，全球有20万开发者，是国内使用范围最广最大的空间计算平台，在国际上也名列前茅，其中40%的用户来自海外。视+AR 自主研发的 EasyAR Mega 元宇宙空间计算平台，为应用开发者提供稳定的建图、定位能力和完善的工具链，最终形成城市级线下元宇宙解决方案，为文化地标、商业地标和公共地标提供 MR 产品和应用。

内容概括

1、介绍元宇宙空间下视+AR 的发展历程、 EasyAR Mega 的平台优势及应用其在垂直行业打造的大量标杆案例和解决方案。

2、AI 加持的大空间识别系统 EasyAR Mega 可以在大空间场景内让开发者及用户去产生及生成基于空间的内容。

张老师首先简单进行了公司介绍，并介绍了 EasyAR 空间计算开放平台。

张老师谈到他对元宇宙的看法。说到元宇宙，大家可能联想到《头号玩家》、《黑客帝国》等科幻电影中的场景，张老师认为未来我们的元宇宙应当是虚实融合的，既拥抱数字世界带来的强大创造能力，又拥抱真实生活，即使科技再发展、虚拟化再强大，也应当是使我们真实生活更美好的。

接着张老师介绍了 AR 技术和应用场景的演化：从图像跟踪到运动跟踪到大空间。

张老师以城市三维重建为例讲述 EasyAR Mega 平台优势。在城市测绘三维重建中，使用 AR 的成本高、门槛高，一台手持设备需要花费10-30万元，且需要专业人员进行勘探测绘，像这种专业治理场景，使用 AR 的成本高，导致难以民用推广。EasyAR Mega 平台在城市级三维重建中具备以下优势：

1.支持城市级地图规模。

2.无需昂贵的激光设备，使用消费级相机即可完成数据采集。

3.24小时完成建图，支持局部更新。

4.高精度三维重建，完整还原真实环境。

5.灵活的规模化采集方案。