标注适应:以中文分词和依存分析为例

能受限于人工标注语料的质量和规模。人工语料构造代价高昂,然而对于许多语言处理任务,却同时存在多个不同标注标准的语料库。多种标注标准的语料代表着不同语言学观点的比较和碰撞,同时也意味着语言学知识的浪费。本报告阐述了标注适应问题以及解决方案的本质原理,并提出了一系列渐进增强的标注适应算法。在中文分词和依存分析两大任务上,标注适应方法都能在不增加系统复杂性的条件下带来显著的性能提升。

 

原文地址:http://www.infoq.com/cn/presentations/marked-adapt

posted on   周 金根  阅读(674)  评论(0编辑  收藏  举报

编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
历史上的今天:
2013-02-04 《敏捷个人》周刊 第16期
2012-02-04 敏友的【敏捷个人】有感(12): 敏友们自发组织的线上思想的碰撞
2010-02-04 企业架构 - 使用价值流分析找到价值所在
2010-02-04 读书笔记 - 价值流图析:增加价值、消除浪费

导航

点击右上角即可分享
微信分享提示