《统计自然语言处理(第2版)》读书笔记

序(摘要)

NLP = linguistics + math + computer science + 认知科学 + 逻辑学 + 心理学

International Tech 评测:

  1. 机器翻译
  2. 信息抽取
  3. 句法分析

中文信息处理:

  1. 生词识别、歧义消解(共性)
  2. 韩语自动分词、词性定义规范(个性)

math:

  1. algebra
  2. probability

NLP 理论体系尚未真正建立,技术方法仍十分初步!

理论:

  1. 形式语言与自动机
  2. 语言模型
  3. 隐马尔可夫模型

方法:

  1. 汉语自动分词
  2. 句法分析
  3. 词意消歧

应用:

  1. 统计机器翻译
  2. 语言翻译
  3. 信息检索
  4. 文本分类
  5. 口语信息处理

基础:

  1. 概率论
  2. 信息论
  3. 形式语言
  4. 自动机

基于统计的自然语言处理 => 经验主义
基于规则的自然语言处理 => 理性主义

基于统计的 NLP 方法:

  1. 隐马尔可夫模型
  2. 最大熵模型
  3. n元语法
  4. 概率上下文无关
  5. 噪声信道理论
  6. 贝叶斯方法
  7. 最小编辑距离
  8. viterbi算法
  9. \(A^{*}\)搜索
  10. 双向搜索
  11. 加权自动机
  12. SVM

语义是否可计算?计算模型、方法、复杂度?

posted @ 2017-04-13 17:41  健康平安快乐  阅读(492)  评论(0编辑  收藏  举报