随笔分类 - 日志
记录开发中的事儿~
摘要: STING算法中的网格与查询相关度判定我改为使用中心极限定理(列维-林德伯格)了。列维-林德伯格的公式只有在总体分布近似于正态分布时才比较准确,但没找到更好的公式了。现在毕设基本完工,界面也做好了。只是聚类结果有时候很诡异,难道降维降太猛了?我来说说我的降维方法: 根据句子成分标注,只保留名词和动词。(忘了那篇论文里提到了,说副词没啥用...
阅读全文
摘要: 请看下面这幅截图: 搞了半天,终于发现if后面有个分号!SHIT!屏幕分辨率低的同志们(像我这样用的1024×768的CRT)检查代码时一定要把代码看全了!
阅读全文
摘要: 昨天磕了一天,没能吧STING算法完工。问题卡在数据正态性检测上了,STING原著论文里提到用X^2假设检验来验证数据的正态性。我搜遍网络,没有找到用C写的源码。自己磕吧,抱着随机数学的书开始写算法,写到一半觉得不对劲。X^2检验正态性是指用的皮尔逊统计量进行的分布拟合检验。而皮尔逊的的统计量在样本量充分大(n>=50)时才近似的...
阅读全文
摘要: 这是开始做核心算法的第二天,主要实现STING层次聚类算法。这算法单独实现倒简单,可毕设要求的是文本聚类,要从文本->预处理->VSM表示->计算权值->成为可以由STING使用的数据。每篇文本中的词都是不定的,文章数也是不定的。要用VSM表示文本,很有难度,在国外网站上找到了个VSM例子: ...
阅读全文
摘要: 继removeDatabase()警告、C++ 传指针还是传引用的困惑、Qt槽可否使用默认参数、诡异的ESC关闭事件以及Qt元类型注册门等一系列波折后,我的corpus creator终于释出了第一个release版!上来就进行各种界面测试,然后来了个8000语料库创建。在贴log前,我先磨叽会儿。corpus creator使用的是经...
阅读全文
摘要: 折腾了几天,终于把语料库创建工具CorpusCreator弄的差不多了。线程部分修正了几次,想来应该没问题了。刚才拿来用Debug版挂在调试器下进行了超大规模语料库创建,8000个语料。从头到尾总算是没崩溃,多线程处理的,界面也响应迅速。使用的本机MySql数据库,语料库创建速度达到了130多KB/S!来检查语料库创建结果时,发现少创建...
阅读全文
摘要:虽然俺不会脱壳,俺不会手动添加区段进行资源重定位,但俺还是会点标准资源汉化和非标资源汉化地!曾经制作过CCleaner单文件,使用的汉化技术把中文资源替换到原EXE中;汉化过LameDropXPD 2.0,那时候使用的Lame还是3.97版。这些都一直没有跟进更新,因为XP用那个版本的CCleaner就足够了,而Lame最经典的是3.96,新版的未必就是好的。 汉化NFS服务器是由于家里买了XTr...
阅读全文
摘要:这两天系统(Windows Server 2003 SP2)开机,发现Services.exe进程CPU使用率暴增并且伴随内存狂耗,内存和虚拟内存可以在10分钟之内耗尽。我3G内存呀,外加2G虚拟内存。但诡异的是待内存耗尽后,Services.exe有突然释放内存,回到正常状态…… 但开机过程实在太痛苦了,还是早点把这问题解决了比较好。Services.exe属于系统级...
阅读全文