我们的分词技术采用的是“语言云”的平台,语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年研制的一整套开放中文自然语言处理系统。 LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块 (包括词法、句法、语义等5项中文处理核心技术,在多次国内外技术评测中获得优异成绩, 特别是获得CoNLL 2009国际句法和语义分析联合评测的第一名),应用程序接口,可视化工具,以及能够以网络服务使用的语言技术云。

  中文分词指的是将汉字序列切分成词序列的问题。 因为在汉语中,词是承载语义的最基本的单元,分词成了是包括信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。

  由于在自然语言处理框架中的基础地位,很多学者对于中文分词任务进行了深入的研究。 主流的分词算法包括基于词典匹配的方法和基于统计机器学习的方法。 LTP分词模块使用的算法将两种方法进行了融合,算法既能利用机器学习较好的消歧能力,又能灵活地引入词典等外部资源。

  语言云新版API是REST风格的WEB API调用服务,REST API服务有诸多优点,这使得它越来越流行。应用于语言云服务中,主要有如下特点:

  • 免SDK安装:REST API的调用无须用户下载SDK,使得语言分析更为便捷。
  • 结果表示格式丰富:API提供了包括PLAIN/XML/JSON/CONLL等多种格式的结果表示。且返回结果容易扩展,便于进行二次开发。        
  • 支持JavaScript调用:语言云支持JavaScript以JSON-P回调的方式调用API,使得返回结果可以嵌入到Web页面或者宿主Web应用中。
  • 请求方式多样:语言云提供了HTTP GET和HTTP POST两种方式的调用接口。
  • 用户认证简洁:API_KEY取代了旧版email:token的认证方式,作为用户的统一授权方式。
posted on 2016-09-07 19:08  hzsy  阅读(136)  评论(0编辑  收藏  举报