从2015自然语言处理实证方法会议看发展趋势

从2015自然语言处理实证方法会议看发展趋势

来源:《中国计算机学会通讯》2015年第11期《动态》

作者:林衍凯    刘知远

 

2015年自然语言处理实证方法会议(Conference on Empirical Methods in Natural Language Processing, EMNLP)于9月17~22日在葡萄牙里斯本召开,近千人参加了会议。

EMNLP是自然语言处理领域的顶级会议,由国际计算语言学会(Association of Computational Linguistics, ACL)下属特殊兴趣小组SIGDAT(ACL Special Interest Group on Linguistic data and Corpus-based Approaches to NLP)组织。EMNLP自1993年开始举办,每年召开一次。会议偏重基于大规模语言数据的统计模型方法的研究与应用,具有非常鲜明的特色。

特邀报告

本次会议邀请蒙特利尔大学教授约书亚·本吉奥(Yoshua Bengio)和斯坦福大学副教授贾斯汀·格里默(Justin Grimmer)作大会特邀报告。

约书亚·本吉奥与另外两位教授,欣顿(Hinton)、雅恩·乐昆(Yann LeCun)共同开启了自2006年开始的深度学习复兴之路。约书亚·本吉奥的报告题目为“深度学习中的语义表示(Deep Learning of Semantic Representations)”,介绍了自然语言处理语义表示学习的进展。贾斯汀·格里默的报告“衡量竞选者与大众交流的方法 (Measuring How Elected Officials and Constituents Communicate)”,展示了美国竞选者如何利用社交媒体培养支持者,支持者如何向他们支持的竞选者表达自己的意见,如何利用调查结果帮助我们理解美国政坛代表的产生过程,以及如何利用计算工具帮助我们解释社会科学中的问题。

会议论文

会议共收到来自58个国家和地区的1300篇论文投稿。来自全球各地的30位领域主席和900多位审稿人组成了程序委员会,对投稿进行了严格的评审。最终录用312篇,录用率为24.04%。

EMNLP会议涉及自然语言处理领域数据标注、算法、应用等方面,是自然语言处理领域学术界和产业界研究人员进行交流、思想碰撞与合作的重要平台。会议涵盖多个主题,包括音韵学、构词法及分词,标注、组块分析及句法分析,对话系统,语义等等。其中,语义作为近几年最热门的方向,吸引了近200篇论文投稿。其他几个主要方向如信息抽取、机器翻译等也分别有近150篇投稿。

在本次会议上,以人工神经网络为代表的深度学习与表示学习大放异彩,以词表示学习算法和开源工具word2vec的发布和流行为标志。近年来词表示、句子表示、文档表示以及知识表示引起了自然语言处理研究者们的极大兴趣,论文“Evaluation Methods for Unsupervised Word Embeddings”引人关注,对近年提出的几种主要词表示模型,在不同任务上系统地进行了对比测试,得出的结论值得关注。

自2014年在机器翻译领域得到有效验证之后,基于Attention的神经网络模型在本次会议上崭露头角:论文“Effective Approaches to Attention-based Neural Machine Translation”对基于Attention的神经网络机器翻译模型做了进一步改进;论文“A Neural Attention Model for Abstractive Sentence Summarization”将该模型应用到了文本摘要任务。约书亚·本吉奥的特邀报告中基于Attention的神经网络模型也备受推崇,相信不久会得到更为广泛深入的研究与应用。还有很多工作采用了长短时记忆模型(Long Short-Term Memory, LSTM)、递归神经网络和卷积神经网络等模型解决自然语言处理的各类任务:论文“Long Short-Term Memory Neural Networks for Chinese Word Segmentation”将长短时记忆模型用于中文分词;论文“Document Modeling with Convolutional-Gated Recurrent Neural Network for Sentiment Classification”将Gated RNN和卷积神经网络结合应用于情感分析;论文“Hierarchical Recurrent Neural Network for Document Modeling”将递归神经网络应用于文档建模;论文“Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths”则将长短时记忆模型应用于关系分类。

最佳论文

本次会议评选出两篇最佳论文。一篇是来自康奈尔大学的论文“Broad-coverage CCG Semantic Parsing with AMR”,提出了关于AMR语义分析的一种语法规约技术。作者将CCG解析同因子图模型相结合,前者用于发现语义的可组合部分,后者用于表示语义中的不可组合部分。

另一篇是来自剑桥大学的论文“Semantically Conditioned LSTM-based Natural Language Generation for Spoken Dialogue Systems”。自然语言产生系统是对话系统的重要组成部分,目前大多数的自然语言产生系统使用规则和启发方法来产生回复,且回复一般严格符合某种程序规范,没有自然语言中的语言变体,这种方法也不易于扩展到其他语言和领域。针对这些问题,作者提出了基于长短时记忆模型的自然语言产生系统。

本次会议还评选出一篇最佳数据集论文,斯坦福大学的“A Large Annotated Corpus for Learning Natural Language Inference”获得这一殊荣。该论文给出了一个面向自然语言推理任务的数据集,解决了该任务没有大规模标注数据集的困境,将推动该任务的研究进展。

本次会议还设立了15场讲习课程讲座和研讨会,涵盖了信息抽取、语义、社交网络、机器翻译等自然语言处理的各个热点问题。

总结和展望

从本次会议可以强烈感受到,EMNLP已经成为自然语言处理,特别是统计自然语言处理领域的学术盛会。由于受到会场规模限制,大会组织者不得不提前关闭会议注册系统。本次会议论文也发出了明确的信号,深度学习和神经网络模型已经成为自然语言处理各任务的重要研究方法。特别是“端到端”的设计思想,抛弃了传统的“词法→句法→语义”流水线模式中特征构造、选择和标注的繁琐工作。大量研究成果展示了深度学习的优越性,值得国内学者密切关注。

作为自然语言处理研究者,我们除了 “拿来主义”,还需要思考能为深度学习在自然语言处理中的应用做些什么。例如,传统自然语言处理研究积累了大量的特征、知识和模型,这些是否应该被完全摈弃?这些先验知识是否可以引入深度学习框架,指导神经网络模型的设计与应用?语言是人类智能的最高体现,未来通过掌握深度学习的最新进展,我们需要进一步探索符合自然语言特点的深度学习框架。■

 

 

作者:

林衍凯

CCF学生会员。清华大学博士生。主要研究方向为知识图谱与语义计算。

刘知远

CCF高级会员。清华大学助理研究员。主要研究方向为自然语言处理与社会计算。

posted @ 2015-11-17 19:05  菜鸡一枚  阅读(684)  评论(0编辑  收藏  举报