自然语言处理 - 随笔分类 - eryo

自然语言处理学习笔记-lecture09-篇章分析

摘要：自然语言处理的处理单元分为字(编码、输入法)，词、短语(形态分析、汉语分词、词性标注、词义消歧、命名实体识别等)，句子(句法分析、语块分析、语义角色标注)，篇章(机器翻译、篇章推理、问答系统、自动摘要和情感分类等) 篇章中出现词汇链，是指一个相同的词在不同位置的重复出现，在抽取实体词汇链之后，抽取词阅读全文

posted @ 2022-10-24 17:53 eryo 阅读(111) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture08-语义分析

摘要：语义计算的任务:解释自然语言句子或篇章各部分(词、词组、句子、段落、篇章)的含义。自然语言句子中存在大量的歧义，涉及指代、同义/多义、量词的辖域、隐喻等; 语义理论简介词的指称作为意义：该理论认为，词或词组的意义就是它们在现实世界上所指的事物。那么计算语义学的任务就是将词或词组与世界模型中的物体对阅读全文

posted @ 2022-10-23 23:04 eryo 阅读(748) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture07-句法分析01

摘要：句法分析(syntactic parsing)的任务就是识别句子的句法结构(syntactic structure)。包含短语结构分析 (Phrase parsing)和依存句法分析 (Dependency parsing) 短语结构分析英语中的结构歧义随介词短语组合个数的增加而不断加深的，这个组阅读全文

posted @ 2022-10-21 21:27 eryo 阅读(687) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture06-词法分析与词性标注

摘要：英语的形态分析单词识别例如： I’ll see prof. Zhang home after the concert.的识别结果：I/ will/ see/ prof./ Zhang/ home/ after/ the/ concert/. 常见的特殊形式的单词识别如下： (1) prof., 阅读全文

posted @ 2022-10-21 17:10 eryo 阅读(306) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture5-语言模型03

摘要：词语表示一种典型方法是符号表示法，$w_1w_2\cdots w_m$等等，等价的表示方法是one-hot表示法，此时有多少个词向量就有多少维，且没有办法表示词之间的相似性，基于连续语义空间的词语表示，向量维数和词的数量无关，是低维稠密的连续实数空间神经网络语言模型词向量：将每个词映射到实数向阅读全文

posted @ 2022-10-21 13:30 eryo 阅读(86) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture5-语言模型02

摘要：语言模型的自适应问题：在训练语言模型时所采用的语料往往来自多种不同的领域，这些综合性语料难以反映不同领域之间在语言使用规律上的差异，而语言模型恰恰对于训练文本的类型、主题和风格等都十分敏感; n 元语言模型的独立性假设的前提是一个文本中的当前词出现的概率只与它前面相邻的 n-1 个词相关，但这种阅读全文

posted @ 2022-10-20 20:38 eryo 阅读(228) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture5-语言模型01

摘要：基本概念大规模语料库的出现为自然语言统计处理方法的实现提供了可能，一个句子$s = w_1w_2\cdots w_m$的先验概率如下： $$ \begin{aligned} p(s) &= p(w_1)\times p(w_2|w_1)\times p(w_3|w_1w_2)\times\cdot 阅读全文

posted @ 2022-10-20 18:58 eryo 阅读(144) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture3-隐马尔科夫模型

摘要：马尔科夫模型状态集合：$\mathcal{S} = {s_1,\cdots,s_N}$ 观测状态序列：$x = x_1,\cdots,x_t,\cdots,x_T$,其中$x_t \in \mathcal{S}$ 状态初始化概率：$\pi_i = p(x_1 = s_i),1 \leq i \le 阅读全文

posted @ 2022-09-17 23:16 eryo 阅读(123) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture1-绪论

摘要：基本概念语言是个体之间由于沟通需要而制定的指令。自然语言:人类之间用于沟通交流的语言。自然语言的特点线性:自然语言呈现为一种线性的符号序列。层次性:自然语言内部存在层次结构。歧义性:同一个自然语言句子存在多种不同的理解。演化性:自然语言随着时代不断演化。典型任务中文分词输入:一段不带空格阅读全文

posted @ 2022-09-10 20:34 eryo 阅读(171) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture2-数学基础1-微积分

摘要：微积分函数设数集 D ⊂ R D \subset \mathbb{R} D⊂R，则称映射 f : D ⊂ R f : D \subset \mathbb{R} f:D⊂R为定义在 D D D上的函数，通常记为 y = f ( x ) , x ∈ D y = f(x), x ∈ D y=f(x), 阅读全文

posted @ 2022-09-10 20:34 eryo 阅读(361) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture2-数学基础3-线性代数

摘要：线性代数向量 n n n个有次序的数 a 1 , a 2 , . . . , a n a_1, a_2, ..., a_n a1,a2,...,an所组成的数组称为 n n n维向量。这 n n n个数称为该向量的 n n n个分量，第 i i i个数 a i a_i ai称为第 i i 阅读全文

posted @ 2022-09-10 20:34 eryo 阅读(137) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture2-数学基础2-概率论

摘要：概率论随机试验具备以下三个特点的试验称为随机试验: 可以在相同的条件下重复地运行;每次试验的可能结果可能不止一个，并且能事先明确试验的所有可能结果;进行一次试验之前不能确定哪一个结果会出现。以下是一些随机试验的例子: 抛一枚硬币，观察正面 H H H、反面 T T T出现的情况。抛一颗骰子，观阅读全文

posted @ 2022-09-10 20:34 eryo 阅读(254) 评论(0) 推荐(0)

自然语言处理学习笔记-lecture2-数学基础4-信息论

摘要：信息论信息量什么是信息量?假设我们听到了两件事，分别如下: 事件A:巴西队获得了2022年FIFA世界杯冠军。事件B:中国队获得了2022年FIFA世界杯冠军。仅凭直觉来说，显而易见事件B的信息量比事件A的信息量要大(也就是“大新闻”)。究其原因，是因为事件A发生的概率很大，事件B发生的概率很阅读全文

posted @ 2022-09-10 20:34 eryo 阅读(73) 评论(0) 推荐(0)

随笔分类 - 自然语言处理

公告