10 2022 档案
摘要:自然语言处理的处理单元分为字(编码、输入法),词、短语(形态分析、汉语分词、词性标注、词义消歧、命名实体识别等),句子(句法分析、语块分析、语义角色标注),篇章(机器翻译、篇章推理、问答系统、自动摘要和情感分类等) 篇章中出现词汇链,是指一个相同的词在不同位置的重复出现,在抽取实体词汇链之后,抽取词
阅读全文
摘要:语义计算的任务:解释自然语言句子或篇章各部分(词、词组、句子、段落、篇章)的含义。自然语言句子中存在大量的歧义,涉及指代、同义/多义、量词的辖域、隐喻等; 语义理论简介 词的指称作为意义:该理论认为,词或词组的意义就是它们在现实世界上所指的事物。那么计算语义学的任务就是将词或词组与世界模型中的物体对
阅读全文
摘要:句法分析(syntactic parsing)的任务就是识别句子的句法结构(syntactic structure)。包含短语结构分析 (Phrase parsing)和依存句法分析 (Dependency parsing) 短语结构分析 英语中的结构歧义随介词短语组合个数的增加而不断加深的,这个组
阅读全文
摘要:英语的形态分析 单词识别 例如: I’ll see prof. Zhang home after the concert.的识别结果:I/ will/ see/ prof./ Zhang/ home/ after/ the/ concert/. 常见的特殊形式的单词识别如下: (1) prof.,
阅读全文
摘要:词语表示 一种典型方法是符号表示法,等等,等价的表示方法是one-hot表示法,此时有多少个词向量就有多少维,且没有办法表示词之间的相似性,基于连续语义空间的词语表示,向量维数和词的数量无关,是低维稠密的连续实数空间 神经网络语言模型 词向量:将每个词映射到实数向
阅读全文
摘要:语言模型的自适应 问题: 在训练语言模型时所采用的语料往往来自多种不同的领域,这些综合性语料难以反映不同领域之间在语言使用规律上的差异,而语言模型恰恰对于训练文本的类型、主题和风格等都十分敏感; n 元语言模型的独立性假设的前提是一个文本中的当前词出现的概率只与它前面相邻的 n-1 个词相关,但这种
阅读全文
摘要:基本概念 大规模语料库的出现为自然语言统计处理方法的实现提供了可能,一个句子的先验概率如下: $$ \begin{aligned} p(s) &= p(w_1)\times p(w_2|w_1)\times p(w_3|w_1w_2)\times\cdot
阅读全文
摘要:一维小波函数 小波级数展开、离散小波变换、连续小波变换分别对应着傅里叶域里面的傅里叶级数展开、离散傅里叶变换、积分傅里叶变换 小波级数展开 对,可以在子空间中用尺度函数展开和在子空间中用某些数量的小
阅读全文
摘要:背景 图像金字塔 金字塔底部是图像的高分辨率表示,顶部是低分辨率表示,假设最底部基础级的大小为或,最顶部级0的大小为即单个像素,一般图像金字塔没有那么多层,常见是级,此时级数的取值范围为$J -
阅读全文
摘要:势函数法 假设要划分属于两种类别的模式样本,这些样本可以看做是分布在维模式空间中的点,把属于的点比拟为某种能源点,在点上,电位达到峰值,随着与该点距离的增大,电位分布迅速减小,即把样本附近空间点上的电位分布看做
阅读全文
摘要:感知器算法 一旦判别函数的形式确定下来,不管它是线性的还是非线性的,剩下的问题就是如何确定它的系数,在模式识别中系数确定的一个主要方法就是通过对已知样本的训练和学习来得到,感知器算法就是通过训练样本模式的迭代和学习,产生线性或广义线性可分的模式判别函数,这个算法不需要对各类别中模式的统计性质做任何假
阅读全文
摘要:彩色基础 用来描述彩色光源质量的3个基本量是辐射、光强和亮度,辐射是从光源流出的能量的总量,通常用瓦特度量,光强用流明来度量,给出了观察者从光源感知的能量总和的度量,例如远红外范围的光源发出的光,可能有很大的辐射,但是观察者很难感知到,所以光强几乎为0,最后亮度是一个主观描绘子,实际上是不可度量的。
阅读全文
摘要:估计退化函数 图像观察估计 首先观察图像的一个小矩形区域,之后处理子图像得到想要的结果,得到一个子图像的原图像估计之后通过下式: 即可计算退化函数,之后基于位置不变的假设还原出完整的退化函数 试验估计
阅读全文
摘要:首先叙述EM算法,然后讨论EM算法的收敛性,作为EM算法的应用,介绍高斯混合模型的学习,最后介绍EM算法的推广-GEM算法 EM算法的引入 目的:概率模型有时候既含有观测变量,也含有隐变量,EM算法就是含有隐变量的概率模型参数的极大似然估计法或极大后验概率估计法 EM算法 输入:观测变量数据,
阅读全文
摘要:首先介绍提升算法的思路和代表性的提升算法AdaBoost,然后分析AdaBoost为什么可以提高学习精度,从前向分步加法模型的角度解释AdaBoost,最后介绍提升方法更具体的实力,提升树boosting tree 提升方法AdaBoost算法 提升方法的基本思路 三个臭皮匠顶个诸葛亮,在概率近似正
阅读全文
摘要:首先介绍图像退化、复原的一个线性模型,之后介绍噪声模型,接下来包含空间域滤波降噪和频率域降噪,介绍图像退化的线性和位置不变模型、估计退化函数的方法和基本的图像复原方法。 图像退化/复原过程的模型 目的:给定为输入图像,退化后的图像为,退化函数为,加性噪声项为$\
阅读全文
摘要:打开图片 打开一张图片是一个很快的操作,和图片的尺寸以及压缩方式无关,打开的时候只读取文件header来获取文件格式、模式、尺寸等信息 from PIL import Image im = Image.open("hopper.ppm") with open("hopper.ppm", "rb")
阅读全文