团队博客作业Week4 --- 学霸网站--NABC
1.需求(Need)
伴随着经济的发展,科学技术取得了飞速的发展,互联网在各行各业的发展中取得了广泛的应用。随着这些事物的发展,我们每个人都会接触到相当庞大的数据。如何在这些数据中找到自己需要的,如何给这些数据分门别类,如何做中英对照扩展用户量......这一切的一切,都是在考验IT工作者对于数据处理的能力。
必须需求:
为了使用户使用更加简单,理解更加容易,为此发展出来关键词抽取&Tagging这些技术。
-
所谓关键词,就是是为了文献标引工作, 从报告、论文中选取出来用以表示全文主题内容信息的单词或术语。关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词, 也称作关键词自动标引, 在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用[1]。关键词可以为文档提供一个简短的概括, 使读者能够在短时间内了解文档的大概内容。关键词还是信息检索系统中对文档进行索引、聚类等操作的基础[2]。这在浩如烟海的文本信息中,迅速定位和理解所需要的信息显得尤为重要。
-
所谓Tag,是一种由用户自定义的、用于描述信息 [3]的关键词。Tagging是用户为信息赋予Tag的行为。Delicious,Flikr等Web2.0网站的发展促进了它的流行,使之成为社会化书签、相册服务、博客等网站的常见功能。但Tagging对用户来说是一种脑力负担不轻的行为:要将信息分类尚属不易,勿论描述信息。对一条信息而言,应该Tag类目还是属性?范畴应该更宽还是更窄?Tag越多越好、还是控制在一定数量内?尤其困难的是,由于并非事前规划,无法很好预计被Tag内容的发展,入门、维护并不轻松。但从目前网络发展形势而言——个人自生成内容(博文、图片、视频等)迅速增加,各类信息海量涌来——Tag可谓信息管理的强大利器。
杀手功能:
- 我们打算在翻译这块下功夫,以便提供可靠的翻译效果。现在很多学习系统都需要中英对照,我们这款学霸系统更应如此。这可能不是大多数用户的需求,但是做好这一点将有利于赢得更多的用户。
外围功能:
-
良好的UI设计
-
可移植性:系统能够在多平台上面使用
-
可扩展性:可以无需破坏底层的结构而增强功能
辅助功能
- 提供一系列皮肤,以便用户更加喜欢
2.做法 (Approach)
一、 良好的关键词抽取&Tagging算法有利于提高用户体验
- 为了使得实现算法尽肯能简单而且效果又好,也就是性价比高。我们采用TF-IDF的方法。
- TFIDF 的主要思想是:如果某个词或短语在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF
实际上是:TF×IDF,TF 词频(Term Frequency),IDF 反文档频率(Inverse Document Frequency)。TF 表示词条 t 在文档 d中出现的频率。 - IDF一般为log(N/n),其中, N 为全部文档数, n 表示包含词条 t 的文档数量。为了使反文档频率更加平滑, 我们做了一些优化, 让IDF=log(N/n+0.01) , 其中某一类中包含词条 t 的文档数为 m。
- IDF 的主要思想是:如果包含词条 t 的文档越少,也就是 n 越小,IDF 越大,则说明词条 t 具有很好的类别区分能力。如果某一类 Ci中包含词条 t 的文档数为 m,而其它类包含 t 的文档总数为 k,显然所有包含 t 的文档数 n=m+k,当 m大的时候,n 也大,按照 IDF 公式得到的 IDF 的值会小,就说明该词条 t 类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是 IDF 的不足之处。
- Tagging的主要思想是:我们有两种算法,一种是相关信息加权的自适应多标签分类算法[4],一种是基于TF-IDF关键词抽取后的标签算法。如果时间不是特别紧迫,我们会采用第一种算法,以得到最佳效果。
二、良好的交互是用户极致体验的基础
- 好的UI设计不仅是让软件变得有个性有品味,还要让软件的操作变得舒适简单、自由,充分体现软件的定位和特点。界面设计是网站带给用户的第一体验,良好的用户设计,会使我们的网站形成无形的价值,用户界面设计的三大原则是:置界面于用户的控制之下;减少用户的记忆负担;保持界面的一致性。
- 如果我们将来要建网站,就一定要把握好人机交互,在第一时间赢得客户。通过对产品的界面和行为进行交互设计,让产品和它的使用者之间建立一种有机关系,从而可以有效达到使用者的目标,这就是交互设计的目的。无论是个性化界面、音乐版块的设置、问题的分类、问题的反馈等等,都是为了创造更加舒适的用户体验。
三、准确的中英翻译效果有利于提升用户体验
- 一种简单的办法就是用把文章放到有道词典、Google翻译、百度翻译等翻译系统上面,选择最佳的翻译作为中英对照。
- 通过网上的开源的翻译源码,进行翻译。
3.好处 (Benefit)
我们当前的产品并非涵盖所有问题的相关信息,主要服务于学生群体。我们是在爬好了的文本中进行数据处理,从而有效的得到关键词和Tag,同时我们还提供中英对照翻译,让学生有更好的学习平台。
4.竞争 (Competitor)
类似本平台的产品种类繁多,不乏主流的搜索巨头推出的相关产品,如“百度知道”,“360问答”,“天涯问答”,“新浪爱问达人”。其次还有一些主流的论坛也提供相关的搜索功能。可以说,我们的这个模块只是这些产品内小的组成部分,但是我们拥有自己的优势。
一、规模较小,灵活性高。
对比百度之类的大型搜索网站,我们的服务群体相对而言规模较小,我们可以根据用户的反馈建议快速的调整相应版块。
二、领域单一,专业程度高
由于网站是会员制的,即通过账户绑定用户,所以自愿加入的用户多数为相关领域的人员,所以问答方面会有更多的专业参考性,同时还有系统收录的相关专业信息,为问题的解答提供专业的解答。
三、个性化设计
本产品附加了一些个性化功能,如音乐版块,用户自定义主页背景等功能。让用户能在分享专业知识的同时保持愉悦的身心。
发布位置:
我们所做的是学霸网站的子模块,初步打算先发布在北航内部,然后发到CSDN、Github等重要的IT平台上,当然越多越好,毕竟这能够提高面向用户的数量量,当然等项目逐步完善之后,我会申请域名和空间发布到外网。
预计用户:
通过小组成员的宣传,预计用户人数在300左右。
参考文献:
[1] 索红光, 刘玉树, 等.一种基于词汇链的关键词抽取方法 [J].中文信息学报, 2006, 20(6)
[2] 刘佳宾, 陈超, 等.基于机器学习的科技文摘关键词自动抽取方法[J].计算机工程与应用, 2007, 43(14)
[3]Ames, M., and Naaman, M. (2007). Why We Tag: Motivations for Annotation in Mobile and Online Media.Proceedings of the SIGCHI conference on Human factors in computing systems
[4]周浩,李翔,刘功申. 相关信息加权的自适应多标签分类算法[J].计算机应用软件,2015,32(1)