NLP复习大纲

NLP复习大纲

信息论基础

信息量 \(I(x)=-log_2^{p(x)}\)
熵是所有事件信息量的期望 \(H(X)=-\sum_xp(x)*log_2^{p(x)}\)
联合熵 \(H(X,Y)=-\sum_x \sum_y p(x,y)*log_2^{p(x,y)}\)
条件熵 \(H(Y|X)=-\sum_x \sum_y p(x,y)*log_2^{p(y|x)}\)
联合熵\(H(X,Y)=H(X)+H(Y|X)\)
熵率\(H_{rate}=\frac{1}{n}*H{(X)}\)
KL距离/相对熵 \(D(p||q)=\sum_xp(x)*log_2^{\frac {p(x)}{q(x)}}\)
交叉熵\(H(X,q)=H(X)+D(p||q)\)，\(H(X,q)=-\sum_xp(x)*log_2^{q(x)}\)
语言L的交叉熵\(H(L,q)=-\frac{1}{n}*log_2^{q(x)}\)
语言L样本的困惑度\(PP_q=[q(l_1^n)]^{-\frac{1}{n}}\)
互信息\(I(X;Y)=H(X)-H(X|Y)\)

语言模型

语言模型就是语句出现的概率，$p(s)=\prod_{i=1}^m p(w_i|w_1...w_{i-1}) $
N-gram 1文元法独立于历史，2文元法为1阶马尔可夫链
参数估计，采用最大似然估计，怎么求条件概率呢？\(p(w_i|w_{i-n+1}^{i-1})=\frac{c(w_{i-n+1}^{i})}{c(w_{i-n+1}^{i-1})}\)

数据平滑

0概率问题，用数据平滑
加1平滑，分子+1，分母+去重之后的大小
减值法，减少实际计数，剩余的概率量留给未出现的
后退法，频率>阈值就用最大似然估计，否则用n-1阶gram概率代替
绝对减值法，把出现的都减去固定常数
线性减值法，把出现的都按比例减小
删除插值法，用低阶gram插值来表示当前的条件概率

语言模型的自适应

理由是n-gram假设很多时候不成立
基于缓存的语言模型，由n-gram和缓存概率插值得到，有衰减系数，因为历史词的影响随着距离的增大而减小
基于混合方法的语言模型，把文本按主题聚n个类，每个类分别算语言模型，整个语言模型是子模型插值得到
最大熵模型，每个信息源提供一个约束，在满足所有约束的模型中选择熵最大的

隐马尔可夫模型与条件随机场

马尔可夫模型的两个假设：时间t的状态只与t-1的状态有关，状态转移是一个确定的概率矩阵
隐马尔可夫模型，状态序列不可知，状态输出序列可知
前向，后向，搜索算法得知道大体流程 ，https://www.zhihu.com/question/20962240
HMM有三个问题
第一个问题，知道状态转移矩阵和状态输出矩阵，问产生这个给定输出O的概率
- 暴力做法：枚举所有状态，ans为\(\sum_i\)产生状态\(s_i\)的概率*\(s_i\)产生O的概率，指数级别
- dp前向算法，定义状态\(f[t][i]\)表示在时间t时，处于状态\(s_i\)，并且输出序列为\(O_1,...,O_t\)的概率
  
  转移为\(f[t][i]=b[i][O_t]*(\sum_{j=1}^Nf[t-1][j]*a[j][i])\)
  
  复杂度为\(N^2*T\)
  
  dp后向算法，倒着算，原理复杂度都一样
第2个问题，给定模型和观察序列O，求概率最大的状态序列
- 定义状态，\(f[t][i]\)表示在时间t时，状态为\(s_i\)，输出的观察序列为\(O_1O_2O_3...O_t\)的最大概率
  
  转移\(f[t][i]=b[i][O_t]*max_{j=1}^N(f[t-1][j]*a[j][i])\)
  
  获得最优的终点状态，记录路径，倒推输出
第3个问题，知道O，求最优模型（前向后向算法）
- 先随机初始化模型参数
- 再计算两个期望
- 根据期望更新参数
- 直到收敛
条件随机场用来标注和划分序列，有转移函数和状态函数，基本思路是给定观察序列X，输出标识序列Y，通过P(Y|X)求解最优标识序列

词法分析与词性标注

英文的形态分析
- 查字典
- 按规则进行还原
- 按未登录词处理
汉语分词
- 链长：一个交集型切分歧义所拥有的集合长度
- 组合型歧义
- 未登录词识别
- 合并原则（基本原则）：语义上无法由组合成分直接相加得到应该合并
- 辅助原则：不绝对
  - 切分原则：有明显分隔符要切分，冗长的要切
  - 合并原则：附着性词语要合并；共现率高的要合并；偏正式名词、动词
结果评价
- 正确率：\(P=\frac{n}{N}*100\)%，n是正确的，N是总数
- 召回率：\(R=\frac{n}{M}*100\)%，n是正确的，M是标准答案的个数
- F-测度值：\(F-measure=\frac{(ß^2+1)*P*R}{ß^2*P+R}*100\)%,一般ß取1
汉语自动分词基本算法
- 正向最大匹配算法：
  - 先找到字典中最长的一个词，假设其长度为len
  - 判断[i,i+len-1]是不是一个词，如果不是，再判断[i,i+len-2]，然后更新i
  - 优点：简单易行；缺点：正确率不高
- 最短路径算法：
  - 如果[i,j]为词，就建边i->j，边长为1
  - 跑最短路
  - 优点：符合汉语自身规律；缺点：最短路径有多条时，难以取舍
- 基于语言模型
  - 求最大的\(p(W|S)\)
  - 优点：减少手工标注；缺点：正确率取决于训练预料
未登录词识别
- 人名，地名等专有名词
词性标注
- 问题：兼类，标注集，规范
- 规则方法，统计方法，综合方法

语义分析

语义分析的基本任务及其面临的困难
- 任务：解释词、句子等的含义
- 困难：大量歧义，不同理解
语义理论：
- 词的意义：指称，心理图像，意图，过程
格语法：
- 格：深层格，指的是语义关系
- 格框架中有语法信息、语义关系，一个格框架由主要概念（动词）和辅助概念（主语、宾语等）组成
语义网络
- 它通过由概念和语义关系组成的有向图来表达知识，描述语义
CD理论
- 三个层次
  - 动作基元
  - 剧本
  - 计划
词义消歧
- 规则、统计、词典
语义角色标注
- 以谓词为核心，分析句子中的其他成分与谓词之间的关系

机器翻译

◆统计机器翻译的基本原理

◆IBM 1~5 翻译模型

◆翻译模型的改进

◆解码算法

◆SMT 系统实现方法

◆译文评估方法

统计机器翻译
- 先用训练集训练翻译模型，当做解码器，测试数据通过解码器就可以得到译文
- 三个关键问题：
  - 估计LM p(T)
    - n-gram
  - 估计TM p(S|T)
    - 对应关系
      - IBM1
        
        选择一个长度m，根据均匀分布原则，对目标语言每个位置选择一个源语言单词，根据概率选择一个目标单词
      - IBM2
        
        选择一个长度m，根据概率分布原则，对目标语言每个位置选择一个源语言单词，根据概率选择一个目标单词
  - 搜索T使得p(T)*p(S|T)最大
基于短语的翻译模型
解码算法
- beam search 选择概率最大的生成
SMT实现方法
- 预料准备
- 预料预处理
- 词语对齐
- 短语抽取和概率计算
- LM训练
- 解码器
- 输出后处理
译文评估方法
- 流畅度、充分性、语义保持性
- BLEU
  - 系统输出的n-gram与参考译文的n-gram匹配的个数/系统译文的n-gram

情感分析

观点:人们对事物的看法，具有明显的主观性，不同人对同一事物的看法存在差异
观点挖掘与倾向性分析:从海量数据中挖掘观点信息，并分析观点信息的倾向性

◼ 情感分类

◼ 情感元素抽取

◼ 跨领域情感分析

◼ 个性化情感分析

◼ 隐式情感分析

◼ 情感原因发现

◼ 情感生成

文本自动摘要

文本摘要概述

文本摘要的定义：文本自动摘要是利用计算机按照某类应用自动地将文本(或文本集合)转换生成简短摘要的一种信息压缩技术
分类：单文档、多文档、单语言、跨语言、抽取式、压缩式、生成式，标题、短文本、长文本
方法：抽取式、压缩式、生成式
评价：自动评价、人工评价

posted @ 2021-07-09 17:41 WeiAR 阅读(100) 评论(0) 收藏举报

刷新页面返回顶部