Jizhiyuan - 博客园

自然语言理解——NLP中的形式语言自动机

摘要： 1.形式语言：是用来精确地描述语言（包括人工语言和自然语言）及其结构的手段。形式语言学也称代数语言学。 2.自动机：识别器是有穷地表示无穷语言的另一种方法。每一个语言的句子都能被一定的识别器所接受。 *有限状态转换机（FST）除了前面提到的单词拼写检查、词法分析、词性标注... 阅读全文

posted @ 2014-05-30 15:49 Jizhiyuan 阅读(1927) 评论(0) 推荐(0) 编辑

自然语言理解——数学基础

摘要：一、信息论基础：熵：联合熵：实际上就是描述一对随机变量平均所需要的信息量。条件熵：给定随机变量 X 的情况下，随机变量 Y 的条件熵定义为：熵率：相对熵（KL距离）：两个概率分布 p(x) 和 q(x) 的相对熵定义为：交叉熵：如果一个随机变量 X ~ p(x)，q(x)为用于近似 p(x)的概率分布，那么，随机变量 X 和模型 q 之间的交叉熵定义为：由此，... 阅读全文

posted @ 2014-05-30 14:30 Jizhiyuan 阅读(1051) 评论(0) 推荐(1) 编辑

摘要： 1.基本概念： NLP：自然语言处理是研究如何利用计算机技术对语言文本（句子、篇章或话语等）进行处理和加工的一门学科，研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。语言的基本属性：语音和文字 2.研究内容： 3.基本问题： a)形态学(morphology)问题：研究词(word) 由有意义的基本单位－词素(morphemes)的构成问题。单... 阅读全文

posted @ 2014-05-29 18:05 Jizhiyuan 阅读(2600) 评论(0) 推荐(0) 编辑

网络挖掘技术——Recommendation

摘要： 1.Personalization Includes:Recommending、Filtering、Predicting。 a)Non-Personalized b)Content-Based c)Collaborative Filtering: User-Based d)Cold-Start Problem: 阅读全文

posted @ 2014-05-27 22:16 Jizhiyuan 阅读(347) 评论(0) 推荐(0) 编辑

网络挖掘技术——微博文本特征提取

摘要：文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出，并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。文... 阅读全文

posted @ 2014-05-27 19:42 Jizhiyuan 阅读(2583) 评论(0) 推荐(0) 编辑

网络挖掘技术——text mining

摘要：一、中文分词：分词就是利用计算机识别出文本中词汇的过程。 1.典型应用：汉字处理：拼音输入法、手写识别、简繁转换；信息检索：Google 、Baidu ；内容分析：机器翻译、广告推荐、内容监控；语音处理：语音识别、语音合成。 2.分词难点：歧义、新词等。 3.分词技术：机械分词（查词典FMM/BMM，全切分）、统计分词（生成式/判别式）、理解分词。 a)生成式分词：建立学习样本的生成模型，再... 阅读全文

posted @ 2014-05-27 19:28 Jizhiyuan 阅读(2490) 评论(0) 推荐(0) 编辑

语音交互技术——语音编码

摘要： 1.语音编码目的：为了减少传输码率或存储量，以提高传输或存储的效率。经过这样的编码之后，同样的信道容量能传输更多路的信号，存储只需要较小容量的存储器。因而这类编码又称为压缩编码。压缩编码需要在保持可懂度与音质、降低数码率和降低编码过程的计算代价三方面折衷。 2.编码分类：波形编码、参数编码、混合编码。波形编码器：没有使用模型，而是试图使重构的语音和原始语音之间的误差最小化。波形编码的方法简单，... 阅读全文

posted @ 2014-05-26 10:51 Jizhiyuan 阅读(1827) 评论(0) 推荐(0) 编辑

语音交互技术——线性预测编码(LPC)

摘要： 1.LPC基本概念：一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小，能够决定唯一的一组预测系数。用于语音分析与合成，可估计许多语音基本参数：基音、共振峰、频谱、声道截面积等。 2.线性预测编码框架：模型的系统函数H(z)的三种形式：AR模型易反映频谱中的峰值，MA模型易反映谷值，ARMA模型可同时反映两者。 3.... 阅读全文

posted @ 2014-05-23 17:54 Jizhiyuan 阅读(2713) 评论(0) 推荐(1) 编辑

语音交互技术——语音信号特征提取

摘要： 1.短时能量分析（音强），决定短时能量特性有两个条件：不同的窗口的形状和长度。窗长越长，频率分辨率越高，而时间分辨率越低（N为帧长，M为步长）。 *典型窗函数：矩形窗谱平滑性能好，但损失高频成分，波形细节丢失，海明窗与之相反。一帧内含1~7个基音周期，10kHz下采100~200点。 2.短时平均振幅分析：计算方法简单，但清浊音的区分不如能量明显。 3.短时过零分析：可以区分清音与浊音，浊音... 阅读全文

posted @ 2014-05-20 21:00 Jizhiyuan 阅读(3343) 评论(0) 推荐(0) 编辑

语音交互技术——语音基础

摘要：语音技术是研究用数字信号处理技术和机器学习方法对语音信号进行处理的一门学科。语音技术的目的: 得到某些参数以便高效传输或存储；或者是用于某种应用，如人工合成出语音、辨识出讲话者、识别出讲话内容、进行语音增强等。语音编码：在保持可以接受的失真的情况下，采用尽可能少的比特数表示语音。脉冲编码调制(PCM)、自适应预测编码、自适应变换编码、线性预测编码、线性预测声码器、共振峰声码器、相位声码器。语音... 阅读全文

posted @ 2014-05-20 16:16 Jizhiyuan 阅读(922) 评论(0) 推荐(0) 编辑

所以燃