英文论文学习笔记

Natural Language Data Management and Interfaces:Recent Development and Open Challenges

原文可见:https://dl.acm.org/doi/10.1145/3035918.3054783

摘要

  • 数据库系统和自然语言处理系统的重叠领域得到发展的两个原因:自然语言文本数据数量的迅速增长,用于搜索和检索信息的自然语言系统的快速发展。
  • 本文介绍了以下两个重叠领域的最新方法,相关系统,研究机会和挑战:关系数据库中自然语言文本数据的管理,数据库自然语言接口的开发。

1. 动机和概述

  • 随着自然语言的大量使用和处理文本工具的增加,数据库系统 + 自然语言处理系统是大势所趋。
    • 自然语言的大量使用 → 文本数据数量的快速增长 → 需要管理自然语言文本数据
    • 用于处理文本的工具的增加 + 数据库管理文本数据 → 需要数据库自然语言接口

2. 管理自然语言文本数据

  • 当以小粒度(如句子)查询文本或与结构化数据连接时,需要将自然语言文本存储在关系数据库中。实现这种解决方案的主要挑战有两个:
    • 查询自然语言文本(如果将自然语言文本视为简单的文本,就可以应用查询文本数据库的一般方法)
    • 自然语言文本转换(自然语言文本可以转化为有更强大查询能力的形式意义表示语言)

3. 开发数据库的自然语言接口

  • 狭义上,数据库自然语言接口仅仅指数据库自然语言查询接口。自然语言查询接口可以使用户直接以日常生活中使用的自然语言提出查询请求,获取数据库中的信息。阻碍数据库自然语言接口广泛应用的两个主要挑战:
    • 自然语言理解:俗称人机对话,文章里主要指计算机使用解析器解析自然语言查询。基于自然语言理解,衡量数据库自然语言接口不同方法的两个维度: 自然语言支持的范围和解析器错误处理。
    • 查询翻译:是将已解析的自然语言查询翻译成针对底层数据库的正确查询形式的过程。这里的主要挑战是弥合解析查询和底层数据之间的差距并生成正式查询。

4. 开放的挑战和机遇

  • 在自然语言数据管理和数据库相关接口方面,还有两个主要的挑战:
    • 移动自然语言数据管理(强烈需要会话型、情境感知型的数据库自然语言接口)
    • 统一数据管理(现实世界中的数据通常是结构化、半结构化和非结构化数据的混合体,需构建支持异构数据模型的数据管理系统来管理)

NaLIR: An Interactive Natural Language Interface for Querying Relational Databases

原文可见:https://dl.acm.org/doi/10.1145/2588555.2594519

摘要

  • 本文主要展示了 NaLIR,一个用于查询关系数据库的通用交互式自然语言接口。它接受英语句子作为查询输入之后,先将此查询转换为一个SQL 查询,然后使用 RDBMS 评估,并将结果返回给用户。
  • 文中主要展示了 NaLIR 的两个方面:
    • NaLIR 在实践中能够处理各种应用领域中相当复杂的查询;
    • NaLIR 的交互式通信如何以最小的用户负担避免误解。

1. 介绍

  • 从关系数据库查询数据时,自然语言查询兼具结构化查询表达能力强的优势和基于关键字查询容易使用的优势。但是由于很难将用户指定的查询结构转换为数据库中实际的模式结构,自然语言处理系统发展缓慢。
  • 本文描述的 NaLIR 的设计思路如下, 其中系统设计时主要专注第二步,系统的交互性也体现在第二步。
    1. 使用现成的自然语言解析器来获得查询语句的语言理解,结果通过解析树表示;
    2. 将语言理解转换为数据库理解,此过程中为确保正确理解句子,会用自然语言向用户解释数据库理解;
    3. 将数据库理解转换为 SQL 查询语句,并由 RDBMS 进行评估。

2. NaLIR 的系统架构

  • 整个系统由两部分组成:
    • 查询翻译部分:负责充分利用用户提供的现有信息,生成正确的 SQL查询语句。包含解析树节点映射器,解析树结构调整器,解析树翻译器(可能与用户进行交互通信的是前两个)。
    • 交互通信部分:负责从用户那里获得更多信息,并确保系统正确理解用户的查询意图。和以前的系统相比,NaLIR 的优胜之处在于交互通信部分可以减轻用户消除误解时的负担。

3. 相关工作

  • 工作基础:关于从形式化查询语言的角度来解释给定关键词背后的查询意图的一系列研究。
  • 和其他的通用数据库自然语言接口相比,NaLIR 不仅同时关注召回率(使用解析树结构调整器)和准确率(使用交互通信),而且能为用户自动改写查询语句。
    • 准确率是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;
    • 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。
    • 一般来说,准确率就是检索出来的条目有多少是准确的,召回率就是所有准确的条目有多少被检索出来了。

4. 演示

  • 演示包括两个阶段:
    • 用户可以从包含一组成功处理的 NL 查询的查询日志中选择一个进行查询,所选的 NL 查询还可以作为查询模板,供用户进行修改。
    • 用户可以自由地进行自己的查询。
posted @ 2021-08-16 18:58  bky-16  阅读(74)  评论(0编辑  收藏  举报