斯坦福大学自然语言处理第一课“引言(Introduction)”
一、课程介绍
斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:
https://class.coursera.org/nlp/
以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。
课件汇总下载地址:斯坦福大学自然语言处理公开课课件汇总
二、自然语言处理概览——什么是自然语言处理(NLP)
1)相关技术与应用
- 自动问答(Question Answering,QA):它是一套可以理解复杂问题,并以充分的准确度、可信度和速度给出答案的计算系统,以IBM‘s Waston为代表;
- 信息抽取(Information Extraction,IE):其目的是将非结构化或半结构化的自然语言描述文本转化结构化的数据,如自动根据邮件内容生成Calendar;
- 情感分析(Sentiment Analysis,SA):又称倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,如从大量网页文本中分析用户对“数码相机”的“变焦、价格、大小、重量、闪光、易用性”等属性的情感倾向;
- 机器翻译(Machine Translation,MT):将文本从一种语言转成另一种语言,如中英机器翻译。
- ... ...
2)发展现状
- 基本解决:词性标注、命名实体识别、Spam识别
- 取得长足进展:情感分析、共指消解、词义消歧、句法分析、机器翻译、信息抽取
- 挑战:自动问答、复述、文摘、会话机器人
3)NLP主要难点——歧义问题
- 词法分析歧义
- 分词,如“严守一把手机关了”,可能的分词结果“严守一/ 把/ 手机/ 关/ 了” 和“严守/ 一把手/ 机关/ 了”
- 词性标注,如“计划”在不同上下文中有不同的词性:“我/ 计划/v 考/ 研/”和“我/ 完成/ 了/ 计划/n”
- 语法分析歧义
- “那只狼咬死了猎人的狗”
- ”咬死了猎人的狗失踪了”
- 语义分析歧义
- 机器翻译:句子“At last, a computer that understands you like your mother”可以有多种含义,如下:
- 计算机会像你的母亲那样很好的理解你(的语言)
- 计算机理解你喜欢你的母亲
- 计算机会像很好的理解你的母亲那样理解你
- 机器翻译:句子“At last, a computer that understands you like your mother”可以有多种含义,如下:
- NLP应用中的歧义
- 音字转换:拼音串“ji qi fan yi ji qi ying yong ji qi le ren men ji qi nong hou de xing qu”中的“ji qi”如何转换成正确的词条
4)为什么自然语言理解如此困难?
- 用户生成内容中存在大量口语化、成语、方言等非标准的语言描述
- 分词问题
- 新词不断产生
- 基本常识与上下文知识
- 各式各样的实体词
- ... ...
为了解决以上难题,我们需要掌握较多的语言学知识,构建知识库资源,并找到一种融合各种知识、资源的方法,目前使用较多是概率模型(probabilistic model)或称为统计模型(statistical model),或者称为“经验主义模型”,其建模过程基于大规模真实语料库,从中各级语言单位上的统计信息,并且,依据较低级语言单位上的统计信息,运行相关的统计、推理等技术计算较高级语言单位上的统计信息。与其相对的“理想主义模型”,即基于Chomsky形式语言的确定性语言模型,它建立在人脑中先天存在语法规则这一假设基础上,认为语言是人脑语言能力推导出来的,建立语言模型就是通过建立人工编辑的语言规则集来模拟这种先天的语言能力。
本课程主要侧重于基于统计的NLP技术,如Viterbi、贝叶斯和最大熵分类器、N-gram语言模型等等。
三、参考资料
- Lecture Slides:Introduction
- http://en.wikipedia.org
- 关毅,统计自然语言处理基础 课程PPT
- 赵妍研,文本情感分析综述
- 刘群、王海峰、王惠临、宗成庆、赵铁军、史晓东、朱靖波、陈家俊、张民,机器翻译技术的进展与展望,中文信息学会成立三十周年学术会议,2011年12月4-5日,北京