[JAVA]基本的数据集分析技巧

抽取信息并统计,排序

任务是对语料进行预处理,对1000个问题的答案和回复进行抽取有用信息并统计。

首先,分析文本内容、格式,思考如何抽取。文件有三种类型answer、comment、vote,因此在开始时根据前面几个字符先判断文件类型。

接着根据需求构造对象和方法,并构造对象list来存储抽取出来的信息。

具体的抽取方法是用split字符将文本划分为数组,然后用相同的方法再继续划分直到获得所需的关键字,并将其存入list中。

获取得到所有的作者姓名,问题id,答案id,回复id,写入新文件。

 

第二步,统计每个作者的答案数量、回复数量,用hashmap<String,Object>保存结果,若有相同作者,根据回复是否为空来判断是答案或者回复并计数,

最后结果存入新的list中,格式:作者姓名,答案数量,回复数量。

 

最后,构造Comparator比较器来排序,根据写作数量(答案+回复)升序,若相同则按照答案排序。以及统计总量,作者总数,答案总数,回复总数,

求取平均每个作者写的答案数和回复数。要注意的是结果用小数表示。

posted on 2015-03-09 20:43  yyyyyi  阅读(246)  评论(0编辑  收藏  举报

导航