Daily Scrum 2012/12/03
TeamSHIT
今天的Scrum布置了接下来三天的任务,具体如下:
隋宇豪:完成语料库的数据库设计与实现,继续完成CRAWLER-PIPELINE数据库;
李斌、彭笑东:语料库翻译
胡仁君:基于web文本本身,脱离语料库的标签抽取。
组员 | 今天任务 | 明天任务 |
胡仁君 |
任务367 确认信息抽取主要算法
|
任务428 正文分词 任务429 词频统计
|
彭笑东 |
任务368 确认信息抽取主要算法 任务374 翻译语料库
|
任务374 翻译语料库 |
李斌 |
任务369 确认信息抽取主要算法 任务373 翻译语料库
|
任务373 翻译语料库 |
隋宇豪 |
任务375 创建预料字典数据库 |
任务287 相关数据库定义与实现 |
其中信息抽取的算法为:
1、标签(关键字)信息 基于词频统计,考虑预先有的预料字典和自动生成的关键字两部分。
2、其他信息 如果有的话,提取。精度要求不高,借用正则式。
燃尽图和燃速图