A_Present

2018年8月5日

摘要：一、语言模型旨在：给一个句子或一组词计算一个联合概率作用：机器翻译：用以区分翻译结果的好坏拼写校正：某一个拼错的单词是这个单词的概率更大，所以校正语音识别：语音识别出来是这个句子的概率更大总结或问答系统相关任务：在原句子的基础上，计算一个新词的条件概率，该概率与P(w1w2w3w4w5 阅读全文

posted @ 2018-08-05 11:34 A_Present 阅读(471) 评论(0) 推荐(0)

2018年8月3日

【NLP_Stanford课堂】最小编辑距离

摘要：一、什么是最小编辑距离最小编辑距离：是用以衡量两个字符串之间的相似度，是两个字符串之间的最小操作数，即从一个字符转换成另一个字符所需要的操作数，包括插入、删除和置换。每个操作数的cost：作用：二、如何找到最小编辑距离实质：寻找一条从“开始字符串”到“最终字符串”的路径（一个操作序列）具阅读全文

posted @ 2018-08-03 10:24 A_Present 阅读(3078) 评论(1) 推荐(0)

2018年7月30日

【NLP_Stanford课堂】句子切分

摘要：依照什么切分句子——标点符号阅读全文

posted @ 2018-07-30 16:37 A_Present 阅读(2815) 评论(0) 推荐(0)

2018年7月29日

【NLP_Stanford课堂】词形规范化

摘要：一、为什么要规范化在做信息检索的时候，一般都是精确匹配，如果不做规范化，难以做查询，比如用U.S.A去检索文本，结果文本里实际上存的是USA，那么实际上应该能查到的结果查不到了。所以需要对所有内容做规范化，以实现检索的有效性。二、怎么规范化在去掉(*v*)ing时只有当(*v*)中含有元音时阅读全文

posted @ 2018-07-29 22:05 A_Present 阅读(564) 评论(0) 推荐(0)

【NLP_Stanford课堂】分词

摘要：一、如何定义一个单词在统计一句话有多少个单词的时候，首要问题是如何定义一个单词，通常有三种情况：以上三种在不同任务下有不同的处理方法。二、统计什么信息在统计时，我们统计如下信息：一般如下表示： corpora：语料库，也就是文本的数据集 N：token的数目 V：单词表，也就是type的集阅读全文

posted @ 2018-07-29 20:05 A_Present 阅读(445) 评论(0) 推荐(0)

【NLP_Stanford课堂】正则表达式

摘要： [^e^]：表示不是e也不是^ a^b： [^e^]：表示不是e也不是^ a^b：阅读全文

posted @ 2018-07-29 16:05 A_Present 阅读(301) 评论(0) 推荐(0)

2018年7月22日

【Python自然语言处理】第一章学习笔记——搜索文本、计数统计和字符串链表

摘要：这本书主要是基于Python和一个自然语言工具包（Natural Language Toolkit, NLTK)的开源库进行讲解 NLTK 介绍：NLTK是一个构建Python程序以处理人类语言数据的平台，它为50多个语料库和词汇资源（如WordNet）提供了易于使用的接口，以及一套用于分类、标记、阅读全文

posted @ 2018-07-22 20:35 A_Present 阅读(656) 评论(0) 推荐(0)

2018年6月3日

【C++ Primer】详解C++和C中的float中的有效数字

摘要：在《C++ Primer》第二章中，2.1.1讲到float型的最小尺寸是6位有效数字。这里对“有效数字”的概念产生疑问，故有了以下内容。首先，float的“尺寸”的意思是该类型数据所占的比特数，在不同机器上有所差别。而“最小尺寸”是C++标准规定的尺寸的最小值，同时允许编译器赋予这些类型更大的尺阅读全文

posted @ 2018-06-03 09:59 A_Present 阅读(2574) 评论(0) 推荐(0)

【C++ Primer】读书笔记_第一章

摘要： Main(): 1. C++程序必须包含main()函数，操作系统通过调用main来运行C++程序。 2. main()的形参可以为空。 3. main函数的返回类型必须为int，返回给操作系统。int类型是一种内置函数（指由语言定义的类型）。 4. main函数的返回值被用来指示状态。返回值0表明阅读全文

posted @ 2018-06-03 09:56 A_Present 阅读(195) 评论(0) 推荐(0)

【SQL Server 2012】按倒序存储“分组统计”结果的临时表到新建表

摘要：程序预先说明：本文访问的数据库是基于存有RDF三元组的开源数据库Localyago修改的库，其中只有一个表，表中有五个属性：主语subject、谓语predict、宾语object、主语的编号subid，宾语的编号objid。每条记录由（subject，predict，object，subid，o 阅读全文

posted @ 2018-06-03 09:47 A_Present 阅读(772) 评论(0) 推荐(0)

公告