摘要:
作者:finallyly 出处:博客园(转载,请注明作者和出处) 硕士毕业论文即将开题,两周内就要交开题报告和开题PPT。而且身上还压了一个基于半规则数据库的作者实体识别问题,一个英汉词典自动对照校对的任务。这两个任务从本质上来讲,都涉及到了语义理解的问题,如果搞不好的话,就要人工纯手工识别了,这时这两项工作就变成了一个既费时,又费力,还不讨好的蛋疼工作了。好在工作中发现了一些规律,能够让后续工作者和我并行工作,而不是串行工作。 数据采集任务本来就比较繁琐,时而有噪声存在也是不可避免的,但是不做这个工作的人往往不能有词直观的感受,他们会苛刻的认为“知识库”就应该是perfect的,凡是有一点噪 阅读全文