随笔分类 - 自然语言处理
自然语言处理学习笔记
摘要:自然语言处理的处理单元分为字(编码、输入法),词、短语(形态分析、汉语分词、词性标注、词义消歧、命名实体识别等),句子(句法分析、语块分析、语义角色标注),篇章(机器翻译、篇章推理、问答系统、自动摘要和情感分类等) 篇章中出现词汇链,是指一个相同的词在不同位置的重复出现,在抽取实体词汇链之后,抽取词
阅读全文
摘要:语义计算的任务:解释自然语言句子或篇章各部分(词、词组、句子、段落、篇章)的含义。自然语言句子中存在大量的歧义,涉及指代、同义/多义、量词的辖域、隐喻等; 语义理论简介 词的指称作为意义:该理论认为,词或词组的意义就是它们在现实世界上所指的事物。那么计算语义学的任务就是将词或词组与世界模型中的物体对
阅读全文
摘要:句法分析(syntactic parsing)的任务就是识别句子的句法结构(syntactic structure)。包含短语结构分析 (Phrase parsing)和依存句法分析 (Dependency parsing) 短语结构分析 英语中的结构歧义随介词短语组合个数的增加而不断加深的,这个组
阅读全文
摘要:英语的形态分析 单词识别 例如: I’ll see prof. Zhang home after the concert.的识别结果:I/ will/ see/ prof./ Zhang/ home/ after/ the/ concert/. 常见的特殊形式的单词识别如下: (1) prof.,
阅读全文
摘要:词语表示 一种典型方法是符号表示法,等等,等价的表示方法是one-hot表示法,此时有多少个词向量就有多少维,且没有办法表示词之间的相似性,基于连续语义空间的词语表示,向量维数和词的数量无关,是低维稠密的连续实数空间 神经网络语言模型 词向量:将每个词映射到实数向
阅读全文
摘要:语言模型的自适应 问题: 在训练语言模型时所采用的语料往往来自多种不同的领域,这些综合性语料难以反映不同领域之间在语言使用规律上的差异,而语言模型恰恰对于训练文本的类型、主题和风格等都十分敏感; n 元语言模型的独立性假设的前提是一个文本中的当前词出现的概率只与它前面相邻的 n-1 个词相关,但这种
阅读全文
摘要:基本概念 大规模语料库的出现为自然语言统计处理方法的实现提供了可能,一个句子的先验概率如下: $$ \begin{aligned} p(s) &= p(w_1)\times p(w_2|w_1)\times p(w_3|w_1w_2)\times\cdot
阅读全文
摘要:基本概念 语言是个体之间由于沟通需要而制定的指令。自然语言:人类之间用于沟通交流的语言。 自然语言的特点 线性:自然语言呈现为一种线性的符号序列。层次性:自然语言内部存在层次结构。歧义性:同一个自然语言句子存在多种不同的理解。演化性:自然语言随着时代不断演化。 典型任务 中文分词 输入:一段不带空格
阅读全文
摘要:微积分 函数 设数集 D ⊂ R D \subset \mathbb{R} D⊂R,则称映射 f : D ⊂ R f : D \subset \mathbb{R} f:D⊂R为定义在 D D D上的函数,通常记为 y = f ( x ) , x ∈ D y = f(x), x ∈ D y=f(x),
阅读全文
摘要:概率论 随机试验 具备以下三个特点的试验称为随机试验: 可以在相同的条件下重复地运行;每次试验的可能结果可能不止一个,并且能事先明确试验的所有可能结果;进行一次试验之前不能确定哪一个结果会出现。 以下是一些随机试验的例子: 抛一枚硬币,观察正面 H H H、反面 T T T出现的情况。抛一颗骰子,观
阅读全文
摘要:线性代数 向量 n n n个有次序的数 a 1 , a 2 , . . . , a n a_1, a_2, ..., a_n a1,a2,...,an所组成的数组称为 n n n维向量。这 n n n个数称为该向量的 n n n个分量,第 i i i个数 a i a_i ai称为第 i i
阅读全文
摘要:信息论 信息量 什么是信息量?假设我们听到了两件事,分别如下: 事件A:巴西队获得了2022年FIFA世界杯冠军。事件B:中国队获得了2022年FIFA世界杯冠军。 仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大(也就是“大新闻”)。究其原因,是因为事件A发生的概率很大,事件B发生的概率很
阅读全文