Gemini 多模态功能:七大应用场景,解锁 AI 无限可能
你是否想象过,一台机器可以像人类一样,同时理解图像、视频和文字? Google Gemini 的诞生,让这一想象成为现实。作为 Google AI 的最新成果,Gemini 的多模态能力为企业带来了前所未有的机遇。
本文将以性能卓越的 Gemini 1.5 Pro 为例,分享 Gemini 在七大实际应用场景中的表现,并重点关注其在图像与视频处理方面的创新应用,展示如何利用其强大的多模态能力和超大上下文窗口,实现更智能、更高效的业务流程。
1. 详细图像描述:让机器看懂世界
Gemini 不仅能识别图像中的物体,还能深入理解图像内容,并生成详细、准确的描述。你可以根据需求定制描述的长度、语气和风格,让机器用人类的语言来“讲述”图像故事。
该应用可以为以下场景提供可能:
- 产品质量检测:通过图像分析,快速识别产品缺陷,提高产品质量。
- 市场调研:分析社交媒体图片,了解消费者对产品的反馈,洞察市场趋势。
- 视觉搜索:基于图像内容进行搜索,提升用户体验。
2. 长文档理解与分析:从 PDF 到数据可视化
Gemini 能够理解并处理超过 1,000 页的 PDF 文档。借助其内置的视觉功能,Gemini 可以准确地调整表格、解读复杂的多列排版布局、理解文档中的图表、草图、地图以及手写文本,并利用这些文本和视觉信息来执行高质量的任务。
接下来的演示将展示让 Gemini 从大量财报中提取关键数据,生成数据表格和图表,甚至编写 Python 代码进行数据可视化。
首先,Google 提供了截至 2024 年第三季度(总共 152 页)的 15 份 Alphabet 财报,然后要求 Gemini 从这些文档中提取 Google 的收入数据,创建汇总这些数据的表格,并使用 matplotlib 编写代码以将收入和环比增长的情况进行可视化呈现。
提示:
以下是过去 15 个季度的收入报告:
1.用 Markdown 格式生成一个表格,展示从“截至 2021 年 3 月 31 日的季度”到“截至 2024 年 9 月 30 日的季度”期间每个季度的总收入情况。一共应有 15 个季度。
2. 为 Google 的每项产品/服务(“Google 搜索”、“YouTube 广告”、“Google 网络”、“Google 订阅、平台与设备”、“Google Cloud”以及“其他项目”)生成一个各季度总收入情况的表格,总共涉及 15 个季度。在输出内容中以多个表格的形式展示(每个表格呈现 4 个季度的数据)。请注意,在 2023 年第三季度及之前,“Google 订阅、平台与设备”被称作“Google 其他”项目。
响应:
以下是您需求的表格: **1. 按季度划分的总收入(单位:百万美元)** | 季度截至 | 年份 | 总收入 | |-------------------|------|--------------| | 3 月 31 日 | 2021 | 55,314 | | 6 月 30 日 | 2021 | 61,880 | | 9 月 30 日 | 2021 | 65,118 | | 12 月 31 日 | 2021 | 75,325 | | 3 月 31 日 | 2022 | 68,011 | | 6 月 30 日 | 2022 | 69,685 | | 9 月 30 日 | 2022 | 69,092 | | 12 月 31 日 | 2022 | 76,048 | | 3 月 31 日 | 2023 | 69,787 | | 6 月 30 日 | 2023 年 | 74,604 | | 9 月 30 日 | 2023 | 76,693 | | 12 月 31 日 | 2023 | 86,310 | | 3 月 31 日 | 2024 | 80,539 | | 6 月 30 日 | 2024 | 84,742 | | 9 月 30 日 | 2024 | 88,268 | **2. 按 Google 产品/服务划分的收入(单位:百万美元)** **2021 第一季度至第四季度** | 季度截至 | Google 搜索 | YouTube 广告 | Google 网络 | Google 其它 | Google Cloud | 其他项目| |----------------|--------------|------------|---------------|-------------|-------------|-----------| | 2021 年 3 月 31 日 | 31,879 | 6,005 | 6,800 | 6,494 | 4,047 | 198 | | 2021 年 6 月 30 日 | 35,845 | 7,002 | 7,597 | 6,623 | 4,628 | 192 | | 2021 年 9 月 30 日 | 37,926 | 7,205 | 7,999 | 6,754 | 4,990 | 182 | | 2021 年 12 月 31 日 | 43,301 | 8,633 | 9,305 | 8,161 | 5,541 | 181 | **2022 第一季度至第四季度** | 季度截至 | Google 搜索 | YouTube 广告 | Google 网络 | Google 其它 | Google Cloud | 其他项目| |----------------|--------------|------------|---------------|-------------|-------------|-----------| | 2022 年 3 月 31 日 | 39,618 | 6,869 | 8,174 | 6,811 | 5,821 | 440 | | 2022 年 6 月 30 日 | 40,689 | 7,340 | 8,259 | 6,553 | 6,276 | 193 | | 2022 年 9 月 30 日 | 39,539 | 7,071 | 7,872 | 6,895 | 6,868 | 209 | | 2022 年 12 月 31 日 | 42,604 | 7,963 | 8,475 | 8,796 | 7,315 | 226 | **2023 第一季度至第四季度** | 季度截至 | Google 搜索 | YouTube 广告 | Google 网络 | Google 其它 | Google Cloud | 其他项目 | |----------------|--------------|------------|---------------|-------------|-------------|-----------| | 2023 年 3 月 31 日 | 40,359 | 6,693 | 7,496 | 7,413 | 7,454 | 288 | | 2023 年 6 月 30 日 | 42,628 | 7,665 | 7,850 | 8,142 | 8,031 | 285 | | 2023 年 9 月 30 日 | 44,026 | 7,952 | 7,669 | 8,339 | 8,411 | 297 | | 2023 年 12 月 31 日 | 48,020 | 9,200 | 8,297 | 10,794 | 9,192 | 657 | **2024 第一季度至第三季度** | 季度截至 | Google 搜索 | YouTube 广告 | Google 网络 | 订阅、平台与设备 | Google Cloud | 其他项目 | |----------------|--------------|------------|---------------|-----------------------------------|-------------|-----------| | 2024 年 3 月 31 日 | 46,156 | 8,090 | 7,413 | 8,739 | 9,574 | 495 | | 2024 年 6 月 30 日 | 48,509 | 8,663 | 7,444 | 9,312 | 10,347 | 365 | | 2024 年 9 月 30 日 | 49,385 | 8,921 | 7,548 | 10,656 | 11,353 | 388 |
提示:利用生成的表格编写 Matplotlib 代码,以柱状图的形式将这些收入情况进行可视化呈现。在 x 轴上绘制时间(按时间顺序排列 15 个季度),在 y 轴上绘制每个时间段的总收入以及每项产品和服务的收入。不要给用户留下需要填补的代码部分。不考虑“其他项目”,并且要确保各柱形间距相等。
提示:好的!现在,您能否生成一个展示各个产品领域收入环比增长情况的图表?x 轴应代表时间(15 个季度中的每一个季度),y 轴应代表收入增长百分比,图表还上应包含 6 条线。即便变量值之前已经定义过,在代码中依然要将其保留。不考虑“其他项目”。
收入环比增长的定义为:(本季度收入-上一季度收入)/上一季度收入。
3. “现实世界”文档理解
Gemini 不仅能处理电子文档,还能理解各种“现实世界”的文档,如收据、标签、标识牌、便条、白板草图、个人记录等。它可以从这些文档中提取关键信息,并以结构化的方式呈现。
以下是一个 Gemini 模型从一张收据图像中提取用户自定义字段的值,并将其作为一个 JSON 对象返回的示例。

4. 网页数据提取:让机器代替人工浏览网页
Gemini 模型能够从网页的屏幕截图中提取数据,并以 JSON 等结构化输出格式返回这些数据。这让它能如人类视角一般实时获取页面内容(包括网页上的图像和视频),从而使网络数据 API 和浏览代理等应用成为可能。这对于数据采集、市场调研等任务具有重要意义。
以下是一个 Gemini 将来自此 Google Play 网页的信息转换为一种结构化输出格式的示例。
提示:从此网页中提取每一本图书的相关信息,并返回一个 JSON 对象列表,其中每个 JSON 对象包含以下信息:
- 图书名称
- 作者
- 星数
- 价格
仅输出您在网页中看到的信息:
[ { "name": "Warriors: A Starless Clan #6", "author": "Erin Hunter", "stars": null, "price": "$14.95" }, { "name": "In Too Deep: A Reacher Novel", "author": "Lee Child", "stars": 4.7, "price": "$16.95" }, { "name": "The Waiting: A Ballard and Bosch Novel", "author": "Michael Connelly", "stars": 4.8, "price": "$16.95" }, { "name": "The Fury of the Gods", "author": "John Gwynne", "stars": 5.0, "price": "$29.95" }, { "name": "Raised by Wolves: Patterson's Greatest Small-Town Thriller", "author": "James Patterson", "stars": null, "price": "$14.95" }, { "name": "Iron Flame (1 of 2)", "author": null, "stars": 4.6, "price": "$27.95" }, { "name": "The Message", "author": "Ta-Nehisi Coates", "stars": 4.9, "price": "$14.95" }, { "name": "Revenge of the Tipping Point: Overstories, Superspreaders", "author": "Malcolm Gladwell", "stars": 4.6, "price": "$14.95" }, { "name": "Counting Miracles: A Novel", "author": "Nicholas Sparks", "stars": 4.3, "price": "$16.95" }, { "name": "Nexus: A Brief History of Information Networks from...", "author": "Yuval Noah Harari", "stars": 4.2, "price": "$19.95" }, { "name": "Wind and Truth: Book Five of...", "author": "Brandon Sanderson", "stars": null, "price": "$38.45" }, { "name": "Passions in Death: An Eve...", "author": "J.D. Robb", "stars": 4.5, "price": "$14.95" }, { "name": "Sunrise on the Reaping (A Hunger Games Novel)", "author": "Suzanne Collins", "stars": null, "price": "$19.95" }, { "name": "Michael Vey 10: The Colony", "author": "Richard Paul Evans", "stars": null, "price": "$14.95" }, { "name": "The Echo Machine: How Right-Wing Extremism...", "author": "David Pakman", "stars": null, "price": "$24.95" }, { "name": "The Perfect Crime (A Jessie...", "author": null, "stars": null, "price": "$14.95" }, { "name": "Peppermint Peril (A Penny...", "author": null, "stars": null, "price": "$4.99" }, { "name": "Lethal Prey", "author": "John Sandford", "stars": null, "price": "$14.95" }, { "name": "The Song of Achilles: A Novel", "author": "Madeline Miller", "stars": 4.7, "price": "$3.99" }, { "name": "A People's History of the United States", "author": "Howard Zinn", "stars": 4.1, "price": "$4.99" }, { "name": "Termination Shock: A Novel", "author": "Neal Stephenson", "stars": 4.3, "price": "$4.99" }, { "name": "Mere Christianity", "author": "C.S. Lewis", "stars": 4.8, "price": "$4.99" }, { "name": "Local Woman Missing", "author": "Mary Kubica", "stars": 4.6, "price": "$6.99" }, { "name": "Murder on the Orient Express: A Hercule Poirot Mystery", "author": "Agatha Christie", "stars": 4.4, "price": "$4.99" }, { "name": "The Mountains Sing", "author": "Nguyen Phan Que Mai", "stars": 1.5, "price": "$32.30" }, { "name": "The Bands of Mourning", "author": "Brandon Sanderson", "stars": 4.9, "price": "$19.95" }, { "name": "The Institute: A Novel", "author": "Stephen King", "stars": 4.7, "price": "$16.95" }, { "name": "Tom Lake: A Novel", "author": "Ann Patchett", "stars": 4.4, "price": "$16.95" }, { "name": "All the Sinners Bleed: A Novel", "author": "S.A. Cosby", "stars": 4.7, "price": "$14.95" }, { "name": "The Black Prism", "author": "Brent Weeks", "stars": 4.9, "price": "$35.99" }, { "name": "The Hundred Years' War on Palestine: A History of Settle...", "author": "Rashid Khalidi", "stars": 4.6, "price": "$14.95" }, { "name": "War", "author": "Bob Woodward", "stars": 3.7, "price": "$14.95" }, { "name": "A People's History of the United States", "author": "Howard Zinn", "stars": 4.1, "price": "$4.99" }, { "name": "Confronting the Presidents: No Spin Assessments from...", "author": "Bill O'Reilly & Martin Dugard", "stars": 4.8, "price": "$19.95" }, { "name": "Chaos: Charles Manson, the CIA, and the Secret History o...", "author": null, "stars": 4.8, "price": "$29.95" }, { "name": "The Demon of Unrest: A Saga of Hubris, Heartbreak, and...", "author": "Erik Larson", "stars": 3.1, "price": "$19.95" }, { "name": "A Hidden Secret: A Kate Burkholder Short Story", "author": "Linda Castillo", "stars": 4.8, "price": "$1.99" }, { "name": "MrBallen Presents: Strange, Dark & Mysterious: The...", "author": null, "stars": 5.0, "price": "$13.95" }, { "name": "Angle of Investigation: Three Harry Bosch Stories", "author": "Michael Connelly", "stars": 4.4, "price": "$12.95" }, { "name": "Cross Kill: An Alex Cross Story", "author": "James Patterson", "stars": 4.7, "price": "$14.95" }, { "name": "Detective Cross", "author": "James Patterson", "stars": 4.6, "price": "$14.95" }, { "name": "Blood Brothers: A Short Story Exclusive", "author": "James Rollins", "stars": 5.0, "price": "$9.95" } ]
5. 目标检测:精准定位图像中的物体
Gemini 能够检测图像中的目标,并创建生成边界框坐标。Gemini 的目标检测功能将在模型的响应与图像建立视觉关联方面具有显着的用处,并且当需要参考用户定义的标准来进行推理时及找到目标时,它比专用模型更有价值。
以下是使用 Gemini 1.5 Pro 进行目标检测的示例:
Gemini 会检测图像中的各个对象,并在其响应中输出边界框坐标。以下图像显示了此类边界框:

6. 视频摘要与分析:让视频信息一目了然
Gemini 能够处理时长最长 90 分钟的视频,包括视频帧和音频两个部分。通过使用 Gemini,您可以进行以下操作:
- 生成视频内容的摘要
- 从日常场景的过程中提取数据
- 在视频中的信息提问
- 识别并搜索视频中的重要时刻
以下是使用 Gemini 生成视频摘要的示例:
提示:为该视频生成使高中生理解的技术讲座笔记。请务必遵循以下指示:
- 结合音频和每张图像幻灯片中显示的信息来编写备注。当使用幻灯片中的信息时,需备注备注,并注明幻灯片上提供的图表并附有描述。
- 包括宣讲各部分的明确章节
- 完整专题视频自始至终的全部内容。
响应:
以下是您要求的技术讲义: # **在大型在线服务中实现快速响应** Jeff Dean,Google ## **简介** Web 应用程序的快速响应时间对于使其更具交互性、更流畅和更易于使用非常重要。当有大量服务器需要联系才能满足用户请求时,保持 Web 应用程序快速运行通常是一项挑战。这可以在 Google 搜索中看到,其中结果页面通常需要来自数千台服务器的信息才能创建。当 Google 服务在共享环境中运行时,或者在可以执行许多不同服务的大型服务器集群上运行时,这变得更具挑战性。这会导致一系列网络问题,例如在同一服务器集群上执行的其他服务的流量拥塞、后台活动和前台活动激增。 当检查这些条件下的应用程序延迟时,它们会表现出所谓的长尾延迟。 Jeff 用一张自己在非洲狩猎旅行时被猎豹拉扯衬衫的有趣照片来说明这一概念。他解释说,长尾延迟意味着当您测量应用程序的延迟并发现它平均运行很快时,第 99 个百分点的延迟可能会非常长。例如,如果您的服务器的平均响应时间为 10 毫秒,第 99 个百分点的延迟为 1 秒,那么如果您只需从其中一台服务器获取数据,则 1% 的请求将花费一秒以上的时间。但是,当您必须从 100 台服务器获取响应时,63% 的请求将花费一秒以上,因为至少有一台服务器可能会遇到这种高延迟。 ## **基本延迟减少技术** 处理这些问题的一些常用方法是: * 差异化服务类:将交互式请求及其网络流量的优先级提高得比后台请求高得多,因为如果这些请求滞后,这不太可能影响用户体验。 * 减少队头阻塞:将大请求分成许多小请求,以防止等待它们的高优先级请求出现延迟。 * 管理昂贵的后台活动:限制后台活动的速率或将其延迟,直到服务器上的流量减少,因为这些活动通常与用户请求没有直接关联。 ## **容错与容忍可变性** 演讲者将其与容错进行了类比,容错是一种常见的硬件技术,利用系统中不可靠的部分(如硬盘或计算机电源)来构建整个可靠系统。通过类比,他希望使用性能差异很大的不可预测组件来构建可预测且性能高的系统。 Jeff 指出,虽然容错和容忍变化都会使用额外资源,但两者之间的区别在于它们变化的时间尺度。容错测量的问题是每天数十或数百个事件的规模,而延迟容忍则测量每秒数千个事件的规模。 ## **延迟容忍技术** 以下是 Jeff 描述的两种最小化延迟变化的技术: ### 跨请求自适应 * 收集系统统计数据。这可能包括延迟率、后端性能等。 * 采取措施改善未来请求的延迟,例如通过负载平衡。 * 这类操作的时间尺度通常为几十秒到几分钟。 ### 请求内适应 * 在单个高级请求内,应对缓慢的子系统。 * 这类操作的时间通常是即时的,而用户正在等待请求得到满足。 ## **细粒度动态分区** Jeff 讨论的一种跨请求适应技术是细粒度动态分区。通常,如果您有“n”台服务器,您可以简单地将工作负载分成“n”个相等的部分,每个服务器可以处理一个部分,假设没有共享环境可以发生其他事情。但是一旦您有了共享环境,负载就会变得不可预测,并可能导致服务器过载。在共享环境中,建议让一台服务器处理 10 到 100 个不同的工作。这允许非常细粒度的负载平衡,因为如果一台服务器过载,其中一个工作可以分配给另一台服务器。这样做的另一个原因是它可以加快故障恢复速度,因为当服务器死机时,它所负责的工作将分发到其他机器上,如果工作量被分成“n”个较小的任务,则此恢复过程可以同时以“n”个不同的方式进行。 ## **选择性复制** Google 经常使用的另一种技术称为选择性复制,其中系统中使用频繁的信息被复制到其他服务器集群。这可以是静态的,其中副本数是固定的,也可以是动态的,其中某条信息的副本数会根据与该信息相关的请求的流量增加或减少。 ## **延迟诱导试用** Jeff 描述的处理共享服务不可预测的延迟和干扰影响的第三种技术是所谓的延迟诱导试用,即在负载下移除容量以改善延迟。其步骤如下: * 认识到服务器响应缓慢,即使它是高优先级服务器。 * 在另一台服务器上复制相关数据。 * 向速度慢的服务器发送请求的“影子流”。这些请求类似于“金丝雀请求”,因为它们可作为检查以确保服务器正常运行。 * 一旦速度慢的服务器的延迟降低并且“金丝雀”检查显示其正常运行,就将其恢复服务。 ## **备份请求** 另一种最大限度减少延迟变化的技术是使用备份请求,客户端将相同请求的副本发送到两个或更多个服务器群集以改善延迟。如果所选的服务器之一以更快的速度返回数据,则客户端会发送取消请求,取消另一台服务器队列中的重复请求(如果可以保留有关原始请求发送位置的信息)。但是,这样做的缺点是,如果两台服务器大约同时开始处理请求,则所需的处理量可能会加倍。在后一种情况下,客户端需要检查是否发生了同时处理的问题,如果是,则仅发送请求数据的一份副本。 然后,演讲者使用两个不同的系统测量了延迟的改善。第一个是负载的服务器集群,其中数据在两个内存服务器中复制,1000 个请求分布在 100 个 tablet 上。演讲者测量了检索所有 1000 个密钥所需的时间。第二次测量使用几乎完全空闲的系统,但参数相同:数据在两个内存服务器中复制,1000 个请求发送到 100 个 tablet 上,并测量所有 1000 个密钥的总检索时间。在这两种情况下,备份请求都大大减少了延迟。下表分别显示了负载和空闲服务器的结果: ### 负载集群结果: | 策略 | 平均值 | 标准差 | 95%ile | 99%ile | 99.9%ile | | ------------- |:--------:|:-------:|:-------:|:-------:|:--------:| | 无备份 | 33 毫秒 | 1524 毫秒 | 24 毫秒 | 52 毫秒 | 994 毫秒 | | 10 毫秒后备份 | 14 毫秒 | 4 毫秒 | 20 毫秒 | 23 毫秒 | 50 毫秒 | | 50 毫秒后备份 | 16 毫秒 | 12 毫秒 | 57 毫秒 | 63 毫秒 | 68 毫秒 | ### 空闲集群结果: | 策略 | 50%ile | 90%ile | 99%ile 99.9%ile | | ------------- |:--------:|:-------:|:-------:|:--------:| | 无备份 | 19 毫秒 | 38 毫秒 | 67 毫秒 | 98 毫秒 | | 2 毫秒后备份 | 16 毫秒 | 28 毫秒 | 38 毫秒 | 51 毫秒 | ## 结论 这些技术可以使在线服务响应更快,并可以大幅减少处理时间和成本。
7. 视频信息提取:从视频中获取结构化数据
Gemini 能够从视频中提取信息,并以格式化输出列表、表格和 JSON 对象等形式。这对于零售、交通和家庭安保等领域检测实体、从屏幕录制内容中提取非格式化数据,或者编目等工作都颇具实用价值。
智能升级,未来已来
Gemini 为企业打开了 AI 应用的新大门。Cloud Ace 作为 Google Cloud 的菁英合作伙伴,荣获 Google Cloud「Generative AI Rocket Starter Package」认证,这意味着我们深耕生成式 AI 领域,能够为企业提供最专业的 Gemini 部署、调优和定制服务。

无论是希望构建智能客服、优化供应链,还是探索更多创新应用,Cloud Ace 都能为您提供全方位的技术支持,帮助您充分挖掘 Gemini 的潜力。
想让您的企业在 AI 时代更具竞争力吗?立即联系 Cloud Ace ,我们将根据您的需求,量身定制最适合的 AI 解决方案。
出海选择 Cloud Ace云一,拓展全球商机!
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)