摘要: 自然语言处理的处理单元分为字(编码、输入法),词、短语(形态分析、汉语分词、词性标注、词义消歧、命名实体识别等),句子(句法分析、语块分析、语义角色标注),篇章(机器翻译、篇章推理、问答系统、自动摘要和情感分类等) 篇章中出现词汇链,是指一个相同的词在不同位置的重复出现,在抽取实体词汇链之后,抽取词 阅读全文
posted @ 2022-10-24 17:53 eryo 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 语义计算的任务:解释自然语言句子或篇章各部分(词、词组、句子、段落、篇章)的含义。自然语言句子中存在大量的歧义,涉及指代、同义/多义、量词的辖域、隐喻等; 语义理论简介 词的指称作为意义:该理论认为,词或词组的意义就是它们在现实世界上所指的事物。那么计算语义学的任务就是将词或词组与世界模型中的物体对 阅读全文
posted @ 2022-10-23 23:04 eryo 阅读(467) 评论(0) 推荐(0) 编辑
摘要: 句法分析(syntactic parsing)的任务就是识别句子的句法结构(syntactic structure)。包含短语结构分析 (Phrase parsing)和依存句法分析 (Dependency parsing) 短语结构分析 英语中的结构歧义随介词短语组合个数的增加而不断加深的,这个组 阅读全文
posted @ 2022-10-21 21:27 eryo 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 英语的形态分析 单词识别 例如: I’ll see prof. Zhang home after the concert.的识别结果:I/ will/ see/ prof./ Zhang/ home/ after/ the/ concert/. 常见的特殊形式的单词识别如下: (1) prof., 阅读全文
posted @ 2022-10-21 17:10 eryo 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 词语表示 一种典型方法是符号表示法,$w_1w_2\cdots w_m$等等,等价的表示方法是one-hot表示法,此时有多少个词向量就有多少维,且没有办法表示词之间的相似性,基于连续语义空间的词语表示,向量维数和词的数量无关,是低维稠密的连续实数空间 神经网络语言模型 词向量:将每个词映射到实数向 阅读全文
posted @ 2022-10-21 13:30 eryo 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 语言模型的自适应 问题: 在训练语言模型时所采用的语料往往来自多种不同的领域,这些综合性语料难以反映不同领域之间在语言使用规律上的差异,而语言模型恰恰对于训练文本的类型、主题和风格等都十分敏感; n 元语言模型的独立性假设的前提是一个文本中的当前词出现的概率只与它前面相邻的 n-1 个词相关,但这种 阅读全文
posted @ 2022-10-20 20:38 eryo 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 基本概念 大规模语料库的出现为自然语言统计处理方法的实现提供了可能,一个句子$s = w_1w_2\cdots w_m$的先验概率如下: $$ \begin{aligned} p(s) &= p(w_1)\times p(w_2|w_1)\times p(w_3|w_1w_2)\times\cdot 阅读全文
posted @ 2022-10-20 18:58 eryo 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 一维小波函数 小波级数展开、离散小波变换、连续小波变换分别对应着傅里叶域里面的傅里叶级数展开、离散傅里叶变换、积分傅里叶变换 小波级数展开 对$f(x) \in L^2$,可以在子空间$V_{j_0}$中用尺度函数展开和在子空间$W_{j_0},W_{j_0 + 1},\cdots$中用某些数量的小 阅读全文
posted @ 2022-10-19 20:08 eryo 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 背景 图像金字塔 金字塔底部是图像的高分辨率表示,顶部是低分辨率表示,假设最底部基础级$J$的大小为$2^J \times 2^J$或$N \times N$,最顶部级0的大小为$1 \times 1$即单个像素,一般图像金字塔没有那么多层,常见是$P + 1$级,此时级数$j$的取值范围为$J - 阅读全文
posted @ 2022-10-17 21:25 eryo 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 特征选择:从$n$个度量值集合${x_1,x_2,\cdots,x_n}$中,按某一准则选取出供分类用的子集,作为降维($m$维,$m \lt n$)的分类特征 特征提取:使$(x_1,x_2,\cdots,x_n)$通过某种变换,产生$m$个特征$(y_1,y_2,\cdots,y_m)(m \l 阅读全文
posted @ 2022-10-16 12:34 eryo 阅读(247) 评论(0) 推荐(0) 编辑