摘要: 说实话,我们的这个软件真的不太好单独发布。本来想叫上爬虫组和UI组一起整合后联合发布,但是整合的结果不太好。正好我们也做了图形界面,就单独发布吧。等所有组完全整合起来后,应该会是一个不错的网站。 界面没有变化,但是内部是完全重新写的。第二阶段两个pipeline组做了分工,我们负责网页部分的提取,另一组负责PDF和问答部分。对数据格式我们做了一些改进,比如每个网页有四个标签,每一个标签对应一个preview。这个preview的目的是提供在网页内容中,标签词汇附近的内容预览。类似于搜索引擎的预览功能。图1 百度搜索的预览图2 选择网页的一个标签,查看其附近内容图3 图形界面 但是最终的... 阅读全文
posted @ 2012-12-17 01:32 teamshit 阅读(1413) 评论(1) 推荐(0) 编辑