技术说明文档——Content schema definition &Content Pipeline
1 Goals
定义这个网站需要的内容结构, 并从爬到的内容中抽取元数据 (meta data), 并支持标签, 翻译等功能。
2 Design Principles
1) 最小复杂度:因该做出简易的且易于理解的设计
2) 易于维护:在做工作的时候就要为维护的人员着想
3) 可扩展性:可以无需破坏底层的结构而增强功能
4) 可移植性
5) 精简性:意味着设计出的系统没有多余的无用的部分。
6) 层次性:保持系统各个分解层的层次性,使我们能在任意层次上观察系统,并得到一直的看法
7) 使用标准技术:尽量用标准化的东西,常用的方法让整个系统给人以熟悉的感觉
3 Terminologies
TERM |
DEFINITION |
噪音 |
网页中不属于自己 想要的 信息 |
网页去重 |
去除重复的信息 |
关键词提取 |
提取关键词 |
数据库可视化 |
给用户呈现出数据库中的数据 |
数据库架构 |
数据库中表之间关系 |
数据库访问接口 |
其他用户通过我写的底层的数据库操作方法进行数据库的相关操作,从而避免了用户直接操作数据库,提高了安全性。 |
数据库索引建立 |
通过对数据库中的表建立索引,提高查询的效率
|
4 Feature List
1) 高效率
2) 高正确率
3) 使用 方便
5 Feature Description
1) 对数据库存储结构的优化,提高查询、存入的效率;
2) 利用tag库中的tag与信息进行字符串匹配,提高正确率
3) 提供多种接口操作,方便用户使用
6 Environments
1)Windows
2)Linux
3)Mac
7 Change History
Date |
Changes made |
Author |
2012.11.06 |
创建文档 |
程志 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
posted on 2012-11-06 09:34 fightingsnail1 阅读(395) 评论(3) 编辑 收藏 举报