例会照片
任务更新
姓名 | 今日完成任务 | 明日任务 | 预计花费时间 |
---|---|---|---|
谢振威 | 提取html内容并排版 | #4 提取html更多信息 | 4h |
杨金键 | 处理html并且有一定效果 | #5 尝试如何提高 并且准备看别的格式信息提取 | 8h |
谷大鑫 | 定义处理完成后数据格式以及上传到solr(未完成) | #6 继续地冠以完成后的数据格式 | 6h |
崔正龙 | 了解分词库相关使用 | #7 使用分词库将word文档分词 | 4h |
金豪 | 看爬虫相关代码补充知识 | #8 弄清楚爬虫部分主要代码逻辑以及输出部分定义 | 6h |
代码签入
无可签入代码