人工智能学习—华为AI Day6

人工智能应用集成需求分析

一、AI技术发展现状及技术挑战

1、计算机视觉发展现状及技术挑战

i.什么是(计算机)视觉?

  • 计算机视觉是使计算机能理解采集设备采集的图像视频的一门学科。
  • 表现形式:给计算机安装上眼睛(照相机)和大脑(算法),让计算机能够感知环境。

ii.计算机视觉科解决的问题

  • 识别人、物、场景
  • 以图搜图
  • 障碍物的躲避和检测
  • 制高点监控应用

iii.计算机视觉任务划分

  • 初级视觉:超分辨率重建、图像修复,重点图像本身处理,如图像像素增强:对比度、颜色
  • 中级视觉:物体检测、图像分割,重点图像分割多个区域,,如图像区分:区域划分
      • 分类(Classification):解决“是什么?”的问题,判断目标是什么类别如人、羊、狗;
      • 检测(Detection):解决“是什么?在哪里?”的问题,定位目标位置并且知道目标是什么,如人、羊、狗,还需要框出物体;
      • 分割(Segmentation):分为实例分割(Instance Segmentation)和语义分割(Sgmantic Segmentation),解决“每一个像素属于哪个目标物场景”的问题,如羊标记单独颜色、人标记单独颜色; 
          • 例一 图像分类:电商平台上传图片做分类,如裙、衣服等;
          • 例二 目标检测:自动监控识别车辆停靠位置、电瓶车、行人、路面标识、交通标志等;
          • 例三 目标检测:工厂安全帽检测、办公室口罩检测;
          • 例四 图像分割:宣传片保留前景颜色,背景色黑白化;
  • 高级视觉:图像文本描述、图像问答技术、图像检索、视觉追踪、动作识别,重点是理解图像,如图像理解:老虎、沙滩、土地等

iv.计算机视觉面临的挑战

  • 光照变化:拍照曝光和拍照过暗;
  • 尺度变化:一辆车在一幅图像中占比可能超过80%,也有可能小于10%;
  • 遮挡:不分被遮挡的行人、车辆、自行车等;
  • 形变:人有站立、弯腰、下蹲、平躺等多种姿势;
  • 运动模糊:当目标在视频中运动过快时,画面会模糊;
  • 平面内旋转:正放、倒放、侧放的一本书;
  • 超平面旋转:左右转头、上下点头的人脸检测;
  • 背景干扰:水面下,鹅卵石上方的一条鱼;
  • 低分辨率:1024*1024分辨率原图中一辆10*10的汽车,resize到256*256之后,车的像素只有2*2;

2、自然语言处理发展现状及技术挑战

i.什么是自然语言处理?

  • 自然语言(Natural Language Processing,NLP)是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息,进行各种类型处理和加工的技术。

    自然语言处理 = 自然语言 + 处理

      • 人类语言:语音物质外壳,由词汇语法两部分组成的符号系统文字声音是语言的两种属性
        • 人类语言比较灵活;
        • 类似人工语言:程序是有一套很强的规则(java、python、c语言);
      • 机器:计算机进行处理,让计算机能够理解和生成人类语言
        • 处理分类:语言理解、语言生成、基础算法;

        • 应用场景

          • 智能回答

          • 舆情分析
          • 文本分类
          • 实体抽取
          • 摘要生成
          • AI写诗
          • 机器翻译
          • 内容审核
          • 文本互译
  • 机器处理人类语言理论技术,让计算机能否理解生成人类语言。
  • 面临挑战:
    • 句法问题
      • 例:主谓语颠倒问题,计算机很难理解。
        苹果,我吃了。
        我吃了苹果。
        ≠ 苹果吃了我。
    • 语义问题
      • 例:
        苹果不吃了。
        这个人真牛。(计算机不理解“牛”是厉害的意思,机器学习的是动物的意思。)
        这个人眼下没些什么。
    • 歧义问题
      • 复制代码
        例:
        自动化研究所取得的成就。
        自动化/研究所/取得/的/成就。
        自动化/研究/所/取得/的/成就。

        门把手弄坏了。
        门/把/手/弄/坏/了。
        门把手/弄/坏/了。
        复制代码
    • 结构歧义
      • 例:
        今天中午吃馒头。
        今天中午吃食堂。
    • 上下文语境
      • 这幅画很有意思。
        这个人太不够意思,我都不知道你是什么意思,如果你明白她的意思,就该意思意思。

3、语音处理发展现状及技术挑战

i.什么是语音交互?

例:语音交付场景
用户说一句话,通过语音输入设备输入计算机,再用语言理解的技术翻译成对话文本,
通过判定对话文本内容采取对应的动作,是否需要继续询问对话翻译文本的意思,还是下一步生成对话文本的回复,
再把最终的对话文本生成一段语音,完成语音交互的过程。

ii.语音交互的应用场景

  • 实时字幕:看视频自动生成字幕;
  • 会议记录:录音笔自动转文字;
  • 电话回访:银行电话回访、营销电话等;
  • 语音搜索:小说阅读;
  • 语音导航:导航软件,名人语音包;
  • 有声阅读:喜马拉雅音频;

iii.语音交互面临的挑战

复制代码
  • 输入不统一
    • 不同说话人:发音器官,口音,说话风格;
    • 同一说话人:不同情绪状态,不同时间,身体状况变化;
  • 噪声影响
    • 背景噪声;
    • 传输信道,麦克风收音设备质量;
  • 模型有效性
    • 训练数据少,脏数据多;
    • 输出维度高,搜索空间大;
复制代码

二、AI应用需求分析

1、传统软件应用开发与AI应用开发对比

2、为什么需要进行需求分析?

3、案例:智能人体测温检测系统——基于热成像

i.需求背景:人力测温效率低、需要一种智能无接触的测温;

ii.需求价值:增加通行效率、减轻防疫人员压力;

iii.需求描述:部署热成像摄像头和普通高清摄像头,跟踪体温异常人员,监控区快速识别;

iv.问题抽象:可见光图像中找到人(计算机视觉行人检测)、找到皮肤区域(计算机视觉人脸检测)、人脸匹配到热成像(计算机视觉图像对齐)、计算人脸温度(非AI技术热成像测温);

    注意:上两点把业务问题转换成AI领域的技术问题;

vi.可行性分析

人脸检测:成本主要是边缘设备;
图像对齐:有成熟算法,不涉及模型训练,1s内对齐可见光和热成像图像;

 

 3、思考题

 

 

posted on   gkhost  阅读(8)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示