摘要: 一、语言模型 旨在:给一个句子或一组词计算一个联合概率 作用: 机器翻译:用以区分翻译结果的好坏 拼写校正:某一个拼错的单词是这个单词的概率更大,所以校正 语音识别:语音识别出来是这个句子的概率更大 总结或问答系统 相关任务:在原句子的基础上,计算一个新词的条件概率,该概率与P(w1w2w3w4w5 阅读全文
posted @ 2018-08-05 11:34 A_Present 阅读(438) 评论(0) 推荐(0) 编辑
摘要: 一、什么是最小编辑距离 最小编辑距离:是用以衡量两个字符串之间的相似度,是两个字符串之间的最小操作数,即从一个字符转换成另一个字符所需要的操作数,包括插入、删除和置换。 每个操作数的cost: 作用: 二、如何找到最小编辑距离 实质:寻找一条从“开始字符串”到“最终字符串”的路径(一个操作序列) 具 阅读全文
posted @ 2018-08-03 10:24 A_Present 阅读(3017) 评论(1) 推荐(0) 编辑
摘要: 依照什么切分句子——标点符号 阅读全文
posted @ 2018-07-30 16:37 A_Present 阅读(2476) 评论(0) 推荐(0) 编辑
摘要: 一、为什么要规范化 在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了。 所以需要对所有内容做规范化,以实现检索的有效性。 二、怎么规范化 在去掉(*v*)ing时只有当(*v*)中含有元音时 阅读全文
posted @ 2018-07-29 22:05 A_Present 阅读(536) 评论(0) 推荐(0) 编辑
摘要: 一、如何定义一个单词 在统计一句话有多少个单词的时候,首要问题是如何定义一个单词,通常有三种情况: 以上三种在不同任务下有不同的处理方法。 二、统计什么信息 在统计时,我们统计如下信息: 一般如下表示: corpora:语料库,也就是文本的数据集 N:token的数目 V:单词表,也就是type的集 阅读全文
posted @ 2018-07-29 20:05 A_Present 阅读(432) 评论(0) 推荐(0) 编辑
摘要: [^e^]:表示不是e也不是^ a^b: [^e^]:表示不是e也不是^ a^b: 阅读全文
posted @ 2018-07-29 16:05 A_Present 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 这本书主要是基于Python和一个自然语言工具包(Natural Language Toolkit, NLTK)的开源库进行讲解 NLTK 介绍:NLTK是一个构建Python程序以处理人类语言数据的平台,它为50多个语料库和词汇资源(如WordNet)提供了易于使用的接口,以及一套用于分类、标记、 阅读全文
posted @ 2018-07-22 20:35 A_Present 阅读(629) 评论(0) 推荐(0) 编辑
摘要: 在《C++ Primer》第二章中,2.1.1讲到float型的最小尺寸是6位有效数字。这里对“有效数字”的概念产生疑问,故有了以下内容。 首先,float的“尺寸”的意思是该类型数据所占的比特数,在不同机器上有所差别。而“最小尺寸”是C++标准规定的尺寸的最小值,同时允许编译器赋予这些类型更大的尺 阅读全文
posted @ 2018-06-03 09:59 A_Present 阅读(2332) 评论(0) 推荐(0) 编辑
摘要: Main(): 1. C++程序必须包含main()函数,操作系统通过调用main来运行C++程序。 2. main()的形参可以为空。 3. main函数的返回类型必须为int,返回给操作系统。int类型是一种内置函数(指由语言定义的类型)。 4. main函数的返回值被用来指示状态。返回值0表明 阅读全文
posted @ 2018-06-03 09:56 A_Present 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 程序预先说明: 本文访问的数据库是基于存有RDF三元组的开源数据库Localyago修改的库,其中只有一个表,表中有五个属性:主语subject、谓语predict、宾语object、主语的编号subid,宾语的编号objid。每条记录由(subject,predict,object,subid,o 阅读全文
posted @ 2018-06-03 09:47 A_Present 阅读(759) 评论(0) 推荐(0) 编辑