随笔分类 -  日志

记录开发中的事儿~
摘要:      STING算法中的网格与查询相关度判定我改为使用中心极限定理(列维-林德伯格)了。列维-林德伯格的公式只有在总体分布近似于正态分布时才比较准确,但没找到更好的公式了。现在毕设基本完工,界面也做好了。只是聚类结果有时候很诡异,难道降维降太猛了?我来说说我的降维方法: 根据句子成分标注,只保留名词和动词。(忘了那篇论文里提到了,说副词没啥用... 阅读全文
posted @ 2010-05-14 01:14 紫红的泪 阅读(530) 评论(5) 推荐(0)
摘要:      请看下面这幅截图:       搞了半天,终于发现if后面有个分号!SHIT!屏幕分辨率低的同志们(像我这样用的1024×768的CRT)检查代码时一定要把代码看全了! 阅读全文
posted @ 2010-05-10 17:06 紫红的泪 阅读(225) 评论(0) 推荐(1)
摘要:      昨天磕了一天,没能吧STING算法完工。问题卡在数据正态性检测上了,STING原著论文里提到用X^2假设检验来验证数据的正态性。我搜遍网络,没有找到用C写的源码。自己磕吧,抱着随机数学的书开始写算法,写到一半觉得不对劲。X^2检验正态性是指用的皮尔逊统计量进行的分布拟合检验。而皮尔逊的的统计量在样本量充分大(n>=50)时才近似的... 阅读全文
posted @ 2010-05-08 12:37 紫红的泪 阅读(299) 评论(0) 推荐(0)
摘要:      这是开始做核心算法的第二天,主要实现STING层次聚类算法。这算法单独实现倒简单,可毕设要求的是文本聚类,要从文本->预处理->VSM表示->计算权值->成为可以由STING使用的数据。每篇文本中的词都是不定的,文章数也是不定的。要用VSM表示文本,很有难度,在国外网站上找到了个VSM例子:  ... 阅读全文
posted @ 2010-05-05 00:56 紫红的泪 阅读(403) 评论(0) 推荐(0)
摘要:      继removeDatabase()警告、C++ 传指针还是传引用的困惑、Qt槽可否使用默认参数、诡异的ESC关闭事件以及Qt元类型注册门等一系列波折后,我的corpus creator终于释出了第一个release版!上来就进行各种界面测试,然后来了个8000语料库创建。在贴log前,我先磨叽会儿。corpus creator使用的是经... 阅读全文
posted @ 2010-04-30 02:28 紫红的泪 阅读(361) 评论(0) 推荐(0)
摘要:      折腾了几天,终于把语料库创建工具CorpusCreator弄的差不多了。线程部分修正了几次,想来应该没问题了。刚才拿来用Debug版挂在调试器下进行了超大规模语料库创建,8000个语料。从头到尾总算是没崩溃,多线程处理的,界面也响应迅速。使用的本机MySql数据库,语料库创建速度达到了130多KB/S!来检查语料库创建结果时,发现少创建... 阅读全文
posted @ 2010-04-28 02:26 紫红的泪 阅读(286) 评论(0) 推荐(0)
摘要:虽然俺不会脱壳,俺不会手动添加区段进行资源重定位,但俺还是会点标准资源汉化和非标资源汉化地!曾经制作过CCleaner单文件,使用的汉化技术把中文资源替换到原EXE中;汉化过LameDropXPD 2.0,那时候使用的Lame还是3.97版。这些都一直没有跟进更新,因为XP用那个版本的CCleaner就足够了,而Lame最经典的是3.96,新版的未必就是好的。 汉化NFS服务器是由于家里买了XTr... 阅读全文
posted @ 2010-03-09 20:45 紫红的泪 阅读(1015) 评论(0) 推荐(1)
摘要:这两天系统(Windows Server 2003 SP2)开机,发现Services.exe进程CPU使用率暴增并且伴随内存狂耗,内存和虚拟内存可以在10分钟之内耗尽。我3G内存呀,外加2G虚拟内存。但诡异的是待内存耗尽后,Services.exe有突然释放内存,回到正常状态…… 但开机过程实在太痛苦了,还是早点把这问题解决了比较好。Services.exe属于系统级... 阅读全文
posted @ 2009-09-20 22:45 紫红的泪 阅读(24281) 评论(2) 推荐(0)

点击右上角即可分享
微信分享提示