AI 新时代杂谈

笔者按:AI 新时代里,数据和算力是生产资料,科学技术中的模型架构和设计是首要生产力。人们需要发展的契机,随着历史的车轮向前看,朝前走,而不是做反动者。

现状

以 Midjourney 为首的图像生成和感知型 AI 服务,已经用海量的实例展现出图像领域极其强大的能力。不论是细节写实的摄影、天马行空的想象,还是文学作品的配图、夸张吸睛的漫画,亦或是朋友间分享的表情包、手中商品的包装……我们在各个领域都能看到 AI 生成图像的身影。

Midjouney 生成的图像

另一方面,AI 对于图像的领悟能力也出现了大幅提升,它们不仅可以识别照片中的物品,还可以解构影像的风格。就好比儿时我们练习的看图写话那样,只不过它尚不能读懂画中想要表达的内涵。

我们用上图的第一张交给 Midjourney 进行分析,它会尝试用自己能理解的方式写出这样的提示词:

1️⃣ a close up of an elderly man looking off into the distance, in the style of japanese influence, strong emotional impact, light maroon and teal, ethical concerns, stockphoto, stock photo --ar 2:1

2️⃣ aged asian man looking in the direction of camera, in the style of lensbaby velvet 56mm f/1.6, stockphoto, pensive stillness --ar 2:1

3️⃣ close up old man looks at camera, in the style of japanese influence, dark teal and light red, ethical concerns, strong emotional impact, canon af35m, realistic depictions of human form, emotional sensitivity --ar 2:1

4️⃣ a man in front of a building looking into a distance, in the style of japanese influence, soft-focus portraits, grandparentcore, close-up, commentary on race, emphasis on facial expression, light orange and dark cyan --ar 2:1

再看非常火爆的 ChatGPT (GPT-4),我们尝试让它编写一段关于辛勤工作一辈子的老农的故事,然后描述这位农夫和家人在一起的幸福画面,最后将这个场面用简短的字词表达出来:

Please follow these steps:
请按照以下步骤执行:

  1. Generate a story about an old farmer that has been working hard for his whole life and has a big family of 10 people;
    生成关于一位辛劳终身,终于组建了一个十口人的大家庭的老农夫的故事;

  2. Please imagine a scene of this farmer and all his families gather together and chat, play, having dinner. Then use descriptive words to depict this scene using clear and expressive words as detailed as possible. Please remember all families presented so you should mention all persons in this scene and how they interact;
    请描述这样一个场景:老农和全家人齐聚在家,他们唱歌、游戏和共进晚餐。然后用描述性的词语将这个场景描述地简短、富有表现力的同时也要尽可能详细。请记住,全体家庭成员都出席了,所以你需要在描述中提到场景里的所有人以及他们之间的交互活动;

  3. Generate prompt for Midjourney based on the output of step 2. Keep it brief but detailed, less than 150 words. Try not to mention names in the prompt.
    请根据步骤 2 的输出内容生成 Midjourney 的 prompt。尽可能保持详尽且简洁,字数少于 150。尽可能不要在 prompt 中提到人名。

ChatGPT 给出了这样的结果:

  1. Once upon a time in a quaint countryside, there lived an old farmer named Harold. He had spent his entire life working diligently on his vast farm, tilling the soil and caring for his livestock. Harold was the proud patriarch of a big family, consisting of his loving wife, Martha, and their eight children. The children ranged in age from the eldest, John, a responsible and hardworking man, to the youngest, little Emma, a curious and energetic girl.

  2. It was a warm summer evening when the entire family gathered together on the porch of their rustic farmhouse to celebrate Martha's birthday. The air was filled with laughter and the aroma of freshly baked bread and roasted chicken. Harold, with his wrinkled hands and weathered face, smiled as he looked upon his family.

    Martha, with her ever-loving warmth, served the food and shared stories of the past. John and his wife, Sarah, chased after their energetic toddler, while the next eldest, Lily, played the violin, filling the air with melodious tunes. Peter, the third child, exchanged playful banter with his teenage siblings, Rachel and Samuel. Benjamin, the shy but artistic one, captured the moment in a sketch, as 12-year-old Daisy tried to mimic her brother's strokes on her own piece of paper. The youngest, Emma, ran around the yard with their loyal dog, barking and giggling with delight.

  3. Prompt: In the warm embrace of a summer evening, a close-knit family of ten gathers to celebrate a special occasion. The patriarch, an old farmer, and his loving wife enjoy the company of their eight children, who engage in various activities – from chasing after toddlers and playing the violin, to joking around and drawing the scene. Amidst the laughter, music, and enticing aromas of a home-cooked meal, the family creates an atmosphere full of love and camaraderie.

将 ChatGPT 生成的提示词规范化后输入给 Midjourney,我们最终的到了这样一副图像:

提示词: In the warm embrace of a summer evening, a close-knit family of ten gathers to celebrate a special occasion. The patriarch, an old farmer, and his loving wife enjoy the company of their eight children, who engage in various activities – from chasing after toddlers and playing the violin, to joking around and drawing the scene. Amidst the laughter, music, and enticing aromas of a home-cooked meal, the family creates an atmosphere full of love and camaraderie. Ultra realistic photograph --q 2 --v 5 --ar 4:3

另外还有一些没有提到的能力,比如通过人工智能进行声音模拟 (SV2TTS)、嘴型与声音匹配 (Wav2Lip + GAN) 等等。可见人工智能中与 AIGC 相关的内容已经开始呈井喷式发展。

尤其是最近我们看到热门的 Auto-GPT 项目,它进一步展现了 人工智能模型自我学习和进化的能力,也不经意间 放大了人们的恐慌和紧张

人们的情绪往往来自于对新鲜、未知事物的担忧,本质上是立场。

思考

网络上对新一代人工智能的讨论,主要呈现出较为明显的两极分化:

  • 对人工智能发展持乐观态度
  • 对人工智能发展持悲观态度

我尝试分析这两种立场,发现大多数人的表态都立足于自身的位置和状态。必须说明的是,我尚没有直接的数据佐证以下观点,这些评述 皆来源于我个人对论坛、新闻的观察和与他人的交流

比如从职业上讲,目前从事研究、建筑、制造、医疗、计算机等相关工作的网友对于人工智能持无感或积极态度的较多。一方面是目前的人工智能发展状态尚未对这些行业产生直接影响,或是发展程度尚处于能够为从业人员提供支持和帮助的阶段。另一方面是这些行业中的某些任务、工作需要极大的创造力,或是较高的人力要求,人工智能依然未能提供这些方面的支持。不过,从事文字、图像、音频相关行业工作的网友中有较多的倾向是悲观的。其中较为明显的意见是认为部分工作岗位将会被人工智能所取代。

我认为需要跳出自身的位置来讨论这个问题。并且我将这个人们对于人工智能新时代的立场问题,分解成以下几个小问题:

  1. 人工智能足够智能吗? 已经达到一定程度的智能,但是离人类的感知智能还有较大的差距。多模态学习经过几十年的发展,如今可以实现诸如视觉 (包括图像和文字,后同)+听觉,视觉+视觉 (文字+图像),以及专业领域的触觉、嗅觉感知。但是距离人类这样同时接受来自更多重模态输入还有非常客观的差距。并且现阶段的人工智能,其输出形式仍然非常单一,往往是以文字、图像的形式,或是将文字以一定形式构成指令,与外部系统交互从而形成更复杂的输出 (比如操纵机械等)。
  2. 人工智能具有创造力吗? 我认为没有。我更愿意将其称之为基于反复学习而形成的发散思维,而不是人类的这种创造力。人工智能可以编写感人的故事,可以绘制恢宏的画作,但是尚不可创作令人称奇的情节,亦不能形成独树一帜的艺术流派。缺乏创造力使得当下的人工智能都停留在工具的范畴,而作为工具就一定是人类的附属品。
  3. 人工智能会取代某些岗位吗? 正如我在上一个问题中的分享,现阶段的人工智能尚不具备创造力。因此,凡需要极强创造力的岗位,在现阶段都不会受到人工智能时代的威胁。但是另一方面,可复现,可调节,可量化的工作,现在已经可以用人工智能辅助了,未来也有非常大的可能性会被取代,或是岗位消失。我认为从业人员在接受人工智能工具辅助的同时,应该充分意识到提升自我的必要性和迫切性。因为今天它是你的工具,但它在不断进化,可能明天它就替代了你的位置。
  4. 人工智能有意识形态吗? 有,并且已经非常明显了。先暂且不论以 ChatGPT 为代表的人工智能产品对中国的社会意识形态是怎样的态度,单是讨论到美国自身的热点事件时,ChatGPT 都已经表现出非常显著的左倾现象,包括反堕胎问题,控枪问题,民粹主义问题都可以得出这个结论。不论是左翼还是右翼,都可以选择性调节工具的政治倾向,从而实现信息过滤的作用。
  5. 人工智能有道德问题吗? 有道德问题,并且已经有了苗头。举个最简单的例子,真实性和实时性是新闻业的基本操守,但是当你的信息流中充斥着由人工智能生成的假故事,或是假图片,甚至假冒公众人物发表观点,你真的能分辨吗?再比如,人工智能代替人类做出的决策如果造成了人员和财产损失,该负责任的应该是人类还是人工智能?

提示词:In a magnificent palace made of silver, gold color metal, a group of long body and human like robots are gathering together. Two of them are interfacing with their index fingers touched and amazing lights shining out of them. unreal engine 5, ultra realistic --q 2 --v 5 --ar 2:1

发展

人工智能的变革已经到来,目前尚未形成工业革命改天换地之势。但是任何生产力的进步,都会带来新的机遇。当下,以美国公司为代表的人工智能产品占据了市场的主流,但这些产品的通病是对英语支持更好,对其他语言支持较差。反观国内几家产品,对中文的支持似乎也没有达到人们的预期,某些场景下能有与 GPT-4 和 Claude 相似的表现。近半个世纪以来英语在互联网世界喷薄发展的造就了这个结果,但中文互联网的畸形发展也是不可排除的问题。

在大陆地区的主流互联网公司的产品里,信息是闭塞的。你无法通过搜索引擎检索这些平台内部的数据,也无法从平台内部连通到另一平台。因此优质的内容必然会在平台内部发展,却对于中文互联网的发展起不到半点推动作用。我希望在未来能够看到这些平台将数据开放出来,让中文互联网能焕发生机。

有人说,数据是人工智能时代最宝贵的财富,正如石油之于工业;算法是人工智能时代最强大的工具,正如烈火之于寒夜。以中国的网民数量、受教育人口数量、科研从业人员数量,有非常充沛的数据来源和算法研究实力,我们应当有信心,有决心,有恒心,将这件事情持续做下去。

Seeing from outside of the earth, city lights are shining in the dark side and the sun is rising from horizon. In the farthest universe, there are stars blinking. This is a picture full of hope. Ultra realistic --q 2 --v 5 --ar 2:1

新一轮的生产力变革,我们一定不能落伍!

感谢阅读我的文章, 欢迎关注「那阵东风」。

posted @ 2023-11-05 16:32  那阵东风  阅读(23)  评论(0编辑  收藏  举报