摘要: 一.分词软件简介分词算法在20世纪80年代就有研究,不过基于当时的技术条件所限,大多数就是原始的机械分词算法。比如,最大匹配算法,mmseg等。关于原始的机械分词算法http://www.cnblogs.com/alic/articles/1215001.html这篇blog有很详细的介绍。之后随着... 阅读全文
posted @ 2015-07-01 16:01 温暖的挪挪 阅读(904) 评论(0) 推荐(0) 编辑
摘要: 3.加工原料文本3.1 字符串:最底层的文本处理我们侧重于将文本作为一个词链表。通过使用NLTK 中的语料库接口,我们可以忽略这些文本所在的文件。一个词的内容,一个文件的内容在编程语言中是由一个叫做字符串的基本数据类型来表示的。3.2使用Unicode进行文字处理Unicode 支持超过一百万种字符... 阅读全文
posted @ 2015-07-01 15:25 温暖的挪挪 阅读(2088) 评论(0) 推荐(0) 编辑
摘要: 1.自然语言工具包(NLTK)NLTK 创建于2001 年,最初是宾州大学计算机与信息科学系计算语言学课程的一部分。从那以后,在数十名贡献者的帮助下不断发展壮大。如今,它已被几十所大学的课程所采纳,并作为许多研究项目的基础。表P -2 列出了NLTK 的一些最重要的模块。这本书提供自然语言处理领域非... 阅读全文
posted @ 2015-07-01 11:36 温暖的挪挪 阅读(859) 评论(0) 推荐(0) 编辑