【NLP】大数据之行，始于足下：谈谈语料库知多少

阅读目录

1 语料库语言学
2 建立语料库的意义
3 语料库研究的一些原则问题
4 语料标注的优缺点
5 参考文献
6 自然语言相关系列文章
7 语料库

大数据之行，始于足下：谈谈语料库知多少

2016年7月20日13:47:51

摘要：大数据发展的基石就是数据量的指数增加，无论是数据挖掘、文本处理、自然语言处理还是机器模型的构建，大多都是基于一定量的数据，数据规模达到一定程度，采用基于规则方法或者概率统计学的方法进行模型构建，感兴趣知识的获取才更有意义。那么，是不是数据足够大就是大数据了？是不是数据足够多就构成语料库了？往往一个模型好坏跟训练数据或者检验数据的语料库息息相关。本文笔者带你走进语料库的世界，在随后模型构建过程避免一些语料注意事项，大大提升模型效率。（本文原创，转载请注明出处：大数据之行，始于足下：谈谈语料库知多少。)

1 语料库语言学

大多数学者普遍认为：语言学的研究必须基于语言事实的基础，必须详尽的大量的占有材料，才有可能在理论上得出比较可靠的结论。
语料库语言学：传统语言材料的搜集整理和加工完全以手工进行，费时费力，直到计算机出现并随之计算能力强大之后，原先手工的工作开始转向计算机去做，后来逐渐的方法完善中，提出一些初步的理论，形成了语料学这样一门语言学与计算机科学交叉的学科。
语料库语言学的研究范畴：主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析，以及具有上述功能的语料库在语言教学、语言定量分析、词汇研究、词语搭配研究、词典编制、语法研究、语言文化研究、法律语言研究、作品风格分析、自然语言理解、机器翻译等。

2 建立语料库的意义

语料库作为一个或者多个应用目标而专门收集的，有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料的集合。本质上讲，语料库实际上是通过对自然语言运用的随机抽样，以一定大小的语言样本来代表某一研究中所确定的语言运用的总体。

3 语料库研究的一些原则问题

3.1 语料库划分与种类

① 时间划分：历时语料库和共时语料库。

② 加工深度划分：标注语料库和非标注语料库

③ 结构划分：平衡结构语料库和自然随机结构语料库

④ 表达形式划分：口语语料库和文本语料库

⑤ 语种划分：单语种语料库和多语种语料库（可比语料库和平行语料库）

⑥ 动态更新程度划分：参考语料库和监控语料库

3.2 构建语料库的原则

语料库应该具有代表性、结构性、平衡性、规模需求并制定语料的元数据规范，各个原则具体介绍如下：

① 代表性：在应用领域中，不是根据量而划分是否是语料库，而是在一定的抽样框架范围内采集而来的，并且在特定的抽样框架内做到代表性和普遍性。

② 结构性：有目的的收集语料的集合，必须以电子形式存在，计算机可读的语料集合结构性体现在语料库中语料记录的代码，元数据项、数据类型、数据宽度、取值范围、完整性约束。

③ 平衡性：主要体现在平缓因子：学科、年代、文体、地域、登载语料的媒体、使用者的年龄、性别、文化背景、阅历、预料用途（私信/广告等），根据实际情况选择其中一个或者几个重要的指标作为平衡因子，最常见的平衡因子有学科、年代、文体、地域等。

④ 规模性：大规模的语料对语言研究特别是对自然语言研究处理很有用的，但是随着语料库的增大，垃圾语料越来越多，语料达到一定规模以后，语料库功能不能随之增长，语料库规模应根据实际情况而定。

⑤ 元数据：元数据对于研究语料库有着重要的意义，我们可以通过元数据了解语料的时间、地域、作者、文本信息等；还可以构建不同的子语料库；除此外，还可以对不同的子语料对比；另外还可以记录语料知识版权、加工信息、管理信息等。

注意：汉语词与词之间没有空隙，不便于计算机处理，一般需要进行切词和词性标注。

4 语料标注的优缺点

① 优点：研究方便。可重用、功能多样性、分析清晰。

② 缺点：语料不客观（手工标注准确率高而一致性差，自动或者半自动标注一致性高而准确率差）、标注不一致、准确率低

总之，目前语料库语言学主要研究机器可读自然文本的采集、存储、检索、统计、自动切词、词性标注、语义标注等。

5 参考文献

【1】数据挖掘概念与技术（364--386）韩家炜

【2】自然语言处理简明教程冯志伟著

【3】统计自然语言处理基础（166—169）宛春法等译

6 自然语言相关系列文章

【自然语言处理：马尔可夫模型（一）】：初识马尔可夫和马尔可夫链

【自然语言处理：马尔可夫模型（二）】：马尔可夫模型与隐马尔可夫模型

【自然语言处理：马尔可夫模型（三）】：向前算法解决隐马尔可夫模型似然度问题

【自然语言处理：马尔可夫模型（四）】：维特比算法解决隐马尔可夫模型解码问题（中文句法标注）

【自然语言处理：马尔可夫模型（五）】：向前向后算法解决隐马尔可夫模型机器学习问题

【自然语言处理：谈谈学习模型的评估（一）】：统计角度窥视模型概念

【自然语言处理：谈谈学习模型的评估（二）】：基于Data Mining角度的模型评估与选择

【自然语言处理：谈谈学习模型的评估（三）】：基于NLP角度的模型评价方法

【自然语言处理：谈谈学习模型的评估（四）】：基于R语言的模型案例实战

7 语料库

声明：关于此文各个篇章，本人采取梳理扼要，顺畅通明的写作手法。系统阅读相关书目和资料总结梳理而成，旨在技术分享，知识沉淀。在此感谢原著无私的将其汇聚成书，才得以引荐学习之用。其次，本人水平有限，权作知识理解积累之用，难免主观理解不当，造成读者不便，基于此类情况，望读者留言反馈，便于及时更正。本文原创，转载请注明出处：大数据之行，始于足下：谈谈语料库知多少。