摘要: BUG质量分析,通过分词,得到了大量的关键词,但是存在很多垃圾数据,譬如大量的停止此 和数字,因此进行过滤是必不可少的呢。#-*- coding: utf-8 -*-import osimport sysdef func_filter(stopword,bugkey,keyword): if not os.path.isfile(stopword) or not os.path.isfile(bugkey): print "ERROR : The file , stopword or bugkey doesn't exist !" else: stopw... 阅读全文
posted @ 2012-03-20 22:43 地瓜日记 阅读(435) 评论(0) 推荐(0) 编辑
摘要: 在做BUG质量分析的时候,对于BUG分词的记过要进行排序和去重操作,故想到了用sort 和 uniq。通过python去调用shell是非常方便的。# -*- coding: utf-8 -*-import osimport sysdef CWS_Statistics(flag,afile,bfile): if not os.path.isfile(afile): print "wordlist dose't exist !" else: if flag == "0": os.system("sort -f "+afile+& 阅读全文
posted @ 2012-03-20 22:40 地瓜日记 阅读(564) 评论(0) 推荐(0) 编辑
摘要: python分词模块,基于mmseg算法编写,核心代码c++,提供python接口。最近在做BUG质量分析的时候,要提取BUG关键词,正好用到的pymmseg这分词模块,分词的效率还不错。Code Example: #-*- coding: utf-8 -*-from pymmseg import mmsegimport osimport sysdef CWS_pymmseg(shortdeslist,wordlist): if os.path.isfile(shortdeslist): mmseg.dict_load_defaults() sd = open... 阅读全文
posted @ 2012-03-20 22:33 地瓜日记 阅读(678) 评论(0) 推荐(0) 编辑