[论文速读] Towards crowdsourcing translation tasks in library cataloguing, a pilot study (DEST, 2010)

Time: 1.5 hours
Time Span: Dec 21, 2011

J Corney; A Lynn; C Torres; P Di Maio; W Regli; G Forbes; L Tobin. Towards crowdsourcing translation tasks in library cataloguing, a pilot study. 4th IEEE International Conference on Digital Ecosystems and Technologies(DEST) (April 2010), pg. 572-577 (gs:1)

 

    决定采用一种新的论文阅读和笔记方式,以加快文献阅读的速度,称为“论文速读”,有以下特点:

  1. 一般要求在2小时内(暂定,视情况可能缩短这个时间长度)读完并写完论文笔记;
  2. 通常会通读全文,但阅读时速度会很快,部分内容一扫而过,对感兴趣的部分才仔细读;
  3. 在写论文笔记时,对于部分不确定的内容,不会去一一考证,在论文笔记里会带上“可能”、“好像”这种主观性的词语(有可能会理解有误,必要时再去考证);阅读过程中也不会有太多展开。

    这种阅读模式,就是以可容忍范围内的信息理解错误或信息获取遗漏,来换取速度的提升。

    这篇是第一篇采用此种模式进行阅读的论文。

 

  Jonathan Corney,  斯特莱斯克莱德大学(University of Strathclyde at Glasgow, 在苏格兰)的教授,研究方向包括:mechanical CAD/CAM (ie. 3D feature recognition, 3D content based retrieval, subdivision for layer manufacture and automated digital painting), 近几年对"how Internet technologies (such as Crowdsourcing) can be used to solve manufacturing problem"感兴趣。对DEST这个会议不了解。

论文笔记如下:

1. 这篇文章的问题背景(S3):苏格兰国家图书馆在08/09这一年新入了130000本出版物,其中只有60%被编了书目(只有被编了书目的出版物才能被查找到),未被编入书目的出版物好像是因为这些出版物的语言比较少众(可能是缺乏相关的翻译人才)。

采用的办法:在mTurk上发表任务,将扫描出来的图片放上去,以crowdsourcing的方式进行翻译。

2. (S4)中对mTurk进行了介绍(很多crowdsourcing或human computation的论文都提到了这个网站,所以有必要了解)

requester: 提出任务的一方。

worker: 解决问题以获得报酬的一方。

HIT(Human Intelligence Task): 就是指任务。

下面是一个HIT的截图:

image

 

3. crowdsourcing market(比如mTurk)也叫“cloud labour”、“micro-outsourcing”.

4. (S1)中提到的一些信息,可能用得着

  • 存在7000种左右不同的人类语言
  • 约有98%的网民使用47种语言

5.  (S5)中提到了一些研究评估机器翻译准确性的文献, 使用了”word error rate(WER)”这个概念。

(S2.2)中提到了评估mTurk worker的翻译能力的文献。

(S2.3)中提到了Google Translator Toolkit和facebook上类似的工具,可根据用户的反馈来提升机器翻译的质量。

posted @ 2011-12-22 11:16  玉泉老博  阅读(482)  评论(0编辑  收藏  举报
Free counter and web stats