会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
躺柒
博客园
首页
新随笔
联系
订阅
管理
读AI未来进行式笔记03自然语言处理技术
自然语言处理
合集 - 读AI未来进行式(12)
1.
读AI未来进行式笔记
01深度学习
2024-06-03
2.
读AI未来进行式笔记
02深度伪造
2024-06-04
3.
读AI未来进行式笔记
03自然语言处理技术
2024-06-05
4.
读AI未来进行式笔记
04数字医疗与机器人
2024-06-06
5.
读AI未来进行式笔记
05元宇宙与XR
2024-06-07
6.
读AI未来进行式笔记
06自动驾驶技术
2024-06-08
7.
读AI未来进行式笔记
07量子计算
2024-06-09
8.
读AI未来进行式笔记
08自主57
2024-06-10
9.
读AI未来进行式笔记
09职业再造
2024-06-11
10.
读AI未来进行式笔记
10幸福感
2024-06-12
11.
读AI未来进行式笔记
11丰饶时代与奇点
2024-06-13
12.
读AI未来进行式笔记
12读后总结与感想兼导读
2024-06-14
1. AI伙伴
1.1. 作为AI能力的集大成者,AI伙伴融合了各种复杂的AI技术
1.2. 人类唯一可能超越AI的领域,只可能在机器无法触及之处,那是属于人类感性与直觉的领域
1.3. 要读懂人类,需要漫长而平缓的学习过程
1.4. AI塑造了我们,我们反过来也塑造了AI
1.5. AI的“思考模式”与人类的思考模式完全不同
1.6. 在很多任务上,人类会比机器更擅长
1.6.1. 如果AI的进步推动了人类的发展和进化,届时甚至会出现新的更能凸显人类智慧的任务
1.7. 应该把精力放在开发适合AI的、实用的应用程序上,并寻求人类与AI的良性共生,而不是纠结于基于深度学习的AI能否成为或者何时成为通用人工智能的问题
1.7.1. 只有人类才是智能的黄金标杆──这是人类的一种自恋倾向
2. 自然语言处理技术
2.1. NLP
2.2. AI研究的核心目的,是希望计算机拥有与人类一样的智慧和能力
2.3. 语言,则是人类最重要的思维、认知与交流的工具
2.3.1. 人类智慧的每一次进步都离不开语言“开路”
2.3.2. 自然语言是人类通过社会活动和教育过程习得的语言,包括说话、文字表达以及非语音的交际语言,这种习得的能力或许来自先天
2.4. 如何让计算机有效地理解人类语言,进而实现人机之间有效的信息交流,被视为AI领域最具挑战性的技术分支
2.4.1. “图灵测试”,就是把利用自然语言进行交流的能力当作判断机器是否已达到拟人化“智能”的关键指标
2.4.2. 如果机器在对话交流中做到成功地让人类误认为它也是“人类”,就意味着机器通过了图灵测试
2.5. 对NLP的研发推进是AI科学家的重要议题,他们希望通过算法模型让AI拥有分析、理解和处理人类语言的能力,甚至可以自己生成人类语言
2.6. 在“学习”方面,深度学习技术具有得天独厚的优势——不仅可以轻松掌握复杂的词汇关系和语言模式,还能凭借“计算机学生”的特性,通过源源不断的数据汲取更多知识,进而实现能力的扩展
2.7. 先提出假设,然后验证假设,这就是遵循求真原则的科学活动的过程模式
3. 有监督的NLP
3.1. “有监督”意味着在AI模型的学习阶段,每一次输入时都要提供相应的正确答案
3.2. 把上百万个英语句子,以及与其一一对应的由专业翻译人员翻译好的上百万个法语句子,作为模型的输入―输出训练数据
3.3. 有监督学习的方法还可以用于语音识别(将语音转换成文字)、语音合成(将文字转换成语音)、光学字符识别(将手写体或图片转换成文字)
3.4. 在处理这类自然语言方面的具体识别任务时,有监督学习非常有效,AI的识别率超过了大多数人类
3.5. 自然语言理解
3.5.1. 有监督的NLP模型的训练数据应尽量穷尽针对同一种意图所可能使用的尽可能多的表达方式,但是只有经过人工标注的数据才能训练出有效的语言理解模型
3.5.2. 无法实现通用性的自然语言理解
3.5.2.1. 一方面不可能有这样的通用性应用
3.5.2.2. 另一方面也无法进行通用性的数据标注
3.5.2.3. 试图给世界上所有的语言数据都打上标签也不现实,因为其背后所需要耗费的时间和成本几乎是无法想象的
3.6. 数据标注
3.6.1. 这个职业在过去20年里不断发展壮大,甚至成了新的就业方向
4. 自监督的NLP
4.1. 自监督,就是在训练NLP模型时,无须人工标注输入、输出数据,从而打破了有监督学习的技术瓶颈
4.1.1. 自监督学习方法名为“序列转导”(Sequence Transduction)
4.2. 2017年,谷歌的研究人员发明了一种新的序列转导模型,称为Transformer,在做了海量语料训练后,它可以具备选择性记忆机制和注意力机制,选择性地记住前文的重点及相关内容
4.2.1. 这种NLP模型在学习语言时所依靠的不是人类语言学理论中的词形变化规律和语法规律,而是依靠AI自创的结构和抽象概念,从数据中汲取知识,然后将其嵌入一个巨大的神经网络
4.2.2. 整个系统的训练数据完全来源于自然语言环境,没有经过人工标注
4.2.3. 以丰富的自然数据和强大的数据处理功能为基础,系统可以建立自己的学习模式,进而不断强化自己的能力
4.3. 一些输入法的“智能预测”功能,可以根据用户的习惯,在已输入词语的基础上进行关联词语推荐或长句补全
4.4. 百度和谷歌等搜索引擎也引入了AI搜索模型,它们会在搜索框里自动补全关键字,帮助用户更快地锁定搜索目标
4.5. GPT-3
4.5.1. 最著名的“通用预训练转换器3”(Generative Pre-trained Transformer 3,GPT-3)在2020年问世了
4.5.2. OpenAI最令人兴奋的研究成果,它有一个巨大的序列转导引擎,建立了一个庞大的神经网络模型来学习分析语言,这个模型几乎覆盖了所有我们能够想象得到的概念
4.5.3. 需要的计算资源也是惊人的:它在全球顶级的超级计算机平台上进行训练,使用了当时世界上最大的语言数据集——处理前容量超过45TB
4.5.3.1. 如果一个人想要读完这个数据集,必须耗费50万次生命周期
4.5.4. 在具备多种语言功能的同时,GPT-3的庞大网络也可以根据某一特定领域的海量数据或与该领域相关的附加信息,快速掌握这一领域的语言
4.5.4.1. GPT-3的这种“迁移学习”与人类孩童的学习过程类似:人类孩童在学习诗歌语言或者历史、计算机编程等领域的专业术语之前,要做的第一件事情就是学会说母语
4.5.5. GPT-3在抽象概念、因果推理、解释性陈述、理解常识以及(有意识的)创造力等方面的能力也很弱
4.5.6. 因为GPT-3吸收了海量的来自人类的数据,所以人类的主观偏见与恶意也就难免被它一同吸收了
4.5.7. GPT-3的这些漏洞可能会被别有用心之人利用,比如针对不同人的不同特性定制某些内容,来直接影响人们对事物的想法和判断
4.5.8. 完全不知道自己说的这段话是什么意思,其根本原因在于GPT-3不具备自我认知的能力
5. NLP应用平台
5.1. GPT-3最令人兴奋的潜力在于,它有望成为一个崭新的平台或底层架构
5.1.1. 让用户与历史人物穿越时空对话的聊天机器人
5.1.2. 根据用户按下的吉他音符自动完成后续乐曲创作的作曲器
5.1.3. 依照用户给出的半张图片自动补全整幅画作的图像生成器
5.1.4. 有一款名为DALL.E的应用,能够按照用户输入的随机文本生成相应的图片
5.2. NLP平台还可能成为下一代搜索引擎,回答人们提出的任何问题
5.3. NLP平台还将记录一些客观发生的基本事实
5.3.1. 体育比赛的结果或股票市场的最新动态
5.3.2. 从一段长文字中提炼出要点,以便节省读者的阅读时间
5.3.3. 会成为记者、金融分析师、作家以及任何文字工作者的绝佳工具
5.4. 提升机器“智能”的最佳途径是开发通用计算方法(如深度学习、GPT-3),在数据持续增加和算力持续升级的基础上,这些通用计算方法会使机器逐渐变得更“智能”
6. 教育领域的AI
6.1. 在过去的100年中,科技浪潮给我们的工作、生活、沟通、出行甚至娱乐方式都带来了翻天覆地的变化
6.2. 除了在2020年以来的新冠肺炎疫情期间全世界的孩子被迫临时改成在线学习外,今天的教育,无论在本质上还是在教学形式上,同100年前相比,几乎没有什么差别
6.3. 教师的部分工作可以利用先进的AI技术实现自动化、标准化,特别是一些重复性高的工作
6.4. AI还能够协助教师策划、设计丰富的课堂形式与教学内容,为学生提供更好的沉浸式互动体验,比如让历史人物“复活”并与学生对话
6.5. AI在教育领域最需要挖掘的潜能,就是为未来的孩子提供个性化的学习方式
6.6. AI导师能够注意到什么方式或内容会让学生的瞳孔放大、变得兴奋,什么方式或内容会让学生的眼皮发沉、开始走神
6.7. 人类教师
6.7.1. 第一个重要角色是做学生的个性化人生导师
6.7.1.1. 人类教师有着机器所无法取代的人性光芒,能够理解学生的心理及情绪,加上人类教师能够与在教学中承担重复性、标准化任务的AI助教无缝配合
6.7.1.2. 把更多的时间用在培养学生的价值观、性格、情商上,以及培养学生的批判性思维、创造力、应变能力等非知识性的软实力上
6.7.2. 第二个重要角色是对AI导师、AI伙伴的工作进行前瞻性的规划及指导,定义下一个阶段的目标,以便进一步满足学生的需求,甚至主动探索学生在未来可能出现的新需求,帮助学生拓展发展领域
6.8. 在AI承担了一部分教育工作的任务之后,基础教育的成本将降低,从而使更多的孩子能够享有公平接受教育的机会
6.8.1. 教育创新企业或机构可以研发更多的边际成本几乎为零的AI应用,真正实现教育资源均等化
合集:
读AI未来进行式
好文要顶
关注我
收藏该文
微信分享
躺柒
粉丝 -
50
关注 -
0
+加关注
0
0
升级成为会员
«
上一篇:
读AI未来进行式笔记02深度伪造
»
下一篇:
读AI未来进行式笔记04数字医疗与机器人
posted @
2024-06-05 07:16
躺柒
阅读(
47
) 评论(
0
)
编辑
收藏
举报
刷新页面
返回顶部
登录后才能查看或发表评论,立即
登录
或者
逛逛
博客园首页
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
相关博文:
·
读AI3.0笔记08_自然语言
·
读十堂极简人工智能课笔记06_自然语言处理
·
趋势预测:自然语言处理(NLP)将如何塑造未来
·
GPT之路(一) AI基础之自然语言处理NLP工作原理
·
大语言模型
阅读排行:
·
【.NET】调用本地 Deepseek 模型
·
CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
·
DeepSeek “源神”启动!「GitHub 热点速览」
·
Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
·
我与微信审核的“相爱相杀”看个人小程序副业
历史上的今天:
2023-06-05
读改变未来的九大算法笔记04_公钥加密
公告
昵称:
躺柒
园龄:
2年1个月
粉丝:
50
关注:
0
+加关注
<
2025年2月
>
日
一
二
三
四
五
六
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
1
2
3
4
5
6
7
8
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
合集
学信息系统项目管理师第4版(35)
学系统集成项目管理工程师(中项)(43)
读高性能MySQL(第4版)(21)
读发布!设计与部署稳定的分布式系统(第2版)(34)
随笔及总结(26)
读改变未来的九大算法(10)
读数据压缩入门(11)
读C#代码整洁之道(8)
读编程与类型系统(12)
读函数式编程思维(6)
读Java8函数式编程(9)
读Java实战(第二版)(20)
读Java性能权威指南(第2版)(31)
读SQL进阶教程(17)
选读SQL经典实例(23)
读SQL学习指南(第3版)(13)
读图数据库实战(11)
读程序员的制胜技(15)
读像火箭科学家一样思考(16)
读程序员的README(19)
读算法霸权(13)
读元宇宙改变一切(14)
读AI3.0(10)
读千脑智能(13)
读十堂极简人工智能课(9)
读人工不智能:计算机如何误解世界(10)
读算法的陷阱:超级平台、算法垄断与场景欺骗(20)
读所罗门的密码(21)
读天才与算法:人脑与AI的数学思维(26)
读人工智能时代与人类未来(19)
读AI未来进行式(12)
读AI新生:破解人机共存密码(18)
读人工智能全传(16)
读写给大家的AI极简史(7)
读零信任网络:在不可信网络中构建安全系统(21)
读软件开发安全之道:概念、设计与实施(17)
读软件设计的要素(7)
读构建可扩展分布式系统:方法与实践(16)
读数据湖仓(9)
读数据工程之道:设计和构建健壮的数据系统(34)
读数据质量管理:数据可靠性与数据质量问题解决之道(20)
读数据保护:工作负载的可恢复性(31)
读量子霸权(18)
读算法简史:从美索不达米亚到人工智能时代(15)
读当我点击时,算法在想什么?(7)
读DAMA数据管理知识体系指南(4)
更多
随笔档案
2025年2月(25)
2025年1月(31)
2024年12月(31)
2024年11月(30)
2024年10月(31)
2024年9月(30)
2024年8月(31)
2024年7月(31)
2024年6月(30)
2024年5月(31)
2024年4月(30)
2024年3月(31)
2024年2月(29)
2024年1月(31)
2023年12月(31)
2023年11月(30)
2023年10月(31)
2023年9月(30)
2023年8月(31)
2023年7月(31)
2023年6月(30)
2023年5月(31)
2023年4月(31)
2023年3月(36)
2023年2月(28)
2023年1月(26)
阅读排行榜
1. C#代码整洁之道读后总结与感想(599)
2. 选读SQL经典实例笔记01_检索和排序(369)
3. 读C#代码整洁之道笔记01_C#的编码标准和原则(311)
4. 读C#代码整洁之道笔记04_重构C#代码识别代码坏味道(309)
5. 学信息系统项目管理师第4版系列02_法律法规(268)
评论排行榜
1. 2023年1月随笔(11)
2. 2023年10月随笔之婚宴趣事多(2)
3. 读高性能MySQL(第4版)笔记12_查询性能优化(下)(2)
4. 读Java性能权威指南(第2版)笔记18_垃圾回收E(2)
推荐排行榜
1. 读高性能MySQL(第4版)笔记01_MySQL架构(上)(2)
2. 选读SQL经典实例笔记01_检索和排序(2)
3. 读软件设计的要素01概念(1)
4. 读AI未来进行式笔记01深度学习(1)
5. 读所罗门的密码笔记01_当人类遇见机器(1)
最新评论
1. Re:2023年10月随笔之婚宴趣事多
@gz4621 wondershare mindmaster...
--躺柒
2. Re:2023年10月随笔之婚宴趣事多
大神 思维导图用的什么软件制作的?
--gz4621
3. Re:读高性能MySQL(第4版)笔记12_查询性能优化(下)
@东围居士 建议读新版。...
--躺柒
4. Re:读高性能MySQL(第4版)笔记12_查询性能优化(下)
第4版相比第3版好像缩减了好多内容?楼主推荐第3版还是第4版
--东围居士
5. Re:读Java性能权威指南(第2版)笔记18_垃圾回收E
@屠炉 没有用第三方工具,手动的。 有几个平台直接支持markdown导入,只是要调整一下图片上传即可。...
--躺柒
点击右上角即可分享
支持DeepSeek的编程助手
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动!「GitHub 热点速览」
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 我与微信审核的“相爱相杀”看个人小程序副业
2023-06-05 读改变未来的九大算法笔记04_公钥加密