摘要:
【词义消歧】在词义消歧中,我们要算出特定上下文中词被赋予的是哪个意思。自动消除歧义需要使用上下文,利用相邻词汇有相近含义这样一个简单的事实。【指代消解】解决“谁对谁做了什么”,即监测主语和动词的宾语。确定带刺或名词短语指的是什么,处理这个问题的技术包括指代消解。还包括语义角色标注,确定名词短语与动词相关联。【自动生成语言】自动生成语言有自动问答和机器翻译。【机器翻译】机器翻译是苦难年的,因为一个给定的词可能有几种不同的解释(取决于它的意思),也因为必须改变次序才能与目标语言的语法结构保持一致。今天,这些困难遇到新情况,从新闻和政府网站发布的两种或者两种以上的语言文档中可以收集到大量的相似文本, 阅读全文
摘要:
【条件】-常用句型 [w for w in text if condition]-常用的比较运算符s.startswith(t)测试s是否以t开头s.endswith(t)测试s是否以t结尾t in s测试s是否包含ts.islower()测试s中所有字符是否都是小写字母s.isupper()测试s中所有字符是否都是大写字母s.isalpha()测试s中所有字符是否都是字母s.isalnum()测试s中所有字符是否都是字母或者数字s.isdigit()测试s中所有字符是否都是数字s.istitle()测试s中是否首字母大写【条件结构】for token in sent1:if token.is 阅读全文
摘要:
【频率分布】目的:想通过找到一本书中使用最频繁的词汇,分析这本书的主题和风格。频率分布:告诉我们每个词汇出现的频率。分析高频词-使用FreqDist寻找《白鲸记》中最常见的50个词fdist1=FreqDist(text1)vocabulary1=fdist.keys()//所有的词汇vocabulary1[:50]//前50个出现频率最高的词汇fdist1['whale'](906)//出现的次数-累积频率图fdist1.plot(50,cumulative=True)-在高频词汇中,有很多无用的词汇,称作管道英语。分析低频词-只出现了一次的词(hapaxes)fdist1. 阅读全文
摘要:
链表-sent1=['Call','me','Ishmael','.']这个方括号内的东西在Python中叫做链表(list,也叫做列表),他就是我们存储文本的方式。我们可以对链表使用加法运算,创造一个新的链表。也可以对链表进行追加操作。sent1.append("Some")索引列表-使用数字位置索引text4[173]-使用index,返回第一次出现的索引。text4.index('awaken')-切片:子链表。从大文本中任意抽取语言片段,术语叫做切片。text5[16715:16735] 阅读全文
摘要:
【前言】自然语言:日常交流使用的语言NLP:Natural Language Processing【第1章 语言处理与Python】1.1语言计算:文本和单词基本入门-想要获得我们期望的小数除法,要输入from __future__ import division-下载NLTK数据包import nltknltk.download()-加载要用的文本from nltk.book import *搜索文本-concordance词汇索引,会显示词汇所处的上下文text1.concordance("monstrous")-similar,查找还有哪些词会出现在相似的上下文中te 阅读全文
摘要:
//根据标记,进行分割操作、可以是分句或者分词def segment(text, segs): words= [] last = 0 for i in range(len(segs)): if segs[i] =='1': words.append(text[last:i+1]) last = i+1 words.append(text[last:]) return words//计算得分值def evaluate(text, segs): words= segment(text, segs) text_siz... 阅读全文