2014年3月16日

软件工程作业:项目1--文本词频统计

摘要: 要求:写一个程序,分析一个文本文件中各个词出现的频率,并且把频率最高的10个词打印出来。文本文件大约是30KB~300KB大小。本程序使用java编写,对中英文文本分词后用hashmap存储键值,然后对其排序输出前10个高频词。程序主界面:图一通过下拉菜单“菜单”中打开文件的选项,选择需要打开分析的文件:图二程序会自动根据文本内容识别中英文,按下“统计”按钮后分析统计,在右侧显示结果:图三中文文本采用中科院的ICTCLAS进行分词,并滤去单个汉字及标点符号后进行统计,结果如下:图四点击“重置”会恢复到主界面(图一),然后再选择需要分析的文本,也可以直接在菜单中选择“退出”,退出程序。用MS的v 阅读全文

posted @ 2014-03-16 23:29 山中计公 阅读(265) 评论(0) 推荐(0) 编辑

导航