读《统计自然语言处理》有笔记——语料库与知识词汇库

语料库包含一定篇目(语篇),每篇篇目包含一定量的词汇。

语种:单语种语料库,多语种语料库;

记载媒体:单媒体语料库,多媒体语料库;

地域:国家语料库,国际语料库;

以语料库代表性和平衡性为主要区分依据的:平衡语料库,平行语料库;平衡性好坏取决于语料库中语料的使用度是否可以真实反映语言使用情况。平行型表现为语料选取的时间、对象、比例、文本数、文本长度等几乎一致(一般用于机器翻译)。

以语料库用途为主要区分依据的:通用语料库,专用语料库;(二者是相对的)

以语料分布时间为主要区分依据的:共时语料库,历时语料库;

按照索绪尔的观点,共时研究是研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系,例如中国五地语料库(大陆、香港、澳门、台湾、新加坡)。

按照索绪尔的观点,历时研究是研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。

以语料库内容加工程度划分的:生语料与标注语料库;

生语料是指没有经过任何加工处理的原始语料数据。

标注语料库是指经过加工处理、标注了特定信息的语料库。

 

一个语料库具有代表性是指在改了语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性;

 

假设已知“打”有buy(~酱油,~饭)和knit(~毛衣,~围巾)两个意思,那么如何知道“打手套”中的“打”是什么意思呢?可以通过计算“手套”和“饭”、“毛衣”等词的语义距离的计算结果进行判定。

posted @ 2012-10-28 10:08  ZH奶酪  阅读(871)  评论(0编辑  收藏  举报