finallyly - 博客园

2011年3月13日

摘要：作者:finallyly 出处：博客园（转载，请注明作者和出处）硕士毕业论文即将开题，两周内就要交开题报告和开题PPT。而且身上还压了一个基于半规则数据库的作者实体识别问题，一个英汉词典自动对照校对的任务。这两个任务从本质上来讲，都涉及到了语义理解的问题，如果搞不好的话，就要人工纯手工识别了，这时这两项工作就变成了一个既费时，又费力，还不讨好的蛋疼工作了。好在工作中发现了一些规律，能够让后续工作者和我并行工作，而不是串行工作。数据采集任务本来就比较繁琐，时而有噪声存在也是不可避免的，但是不做这个工作的人往往不能有词直观的感受，他们会苛刻的认为“知识库”就应该是perfect的，凡是有一点噪阅读全文

posted @ 2011-03-13 22:08 finallyly 阅读(719) 评论(7) 推荐(2) 编辑

2011年3月4日

C++字符串：string and wstring的区别，非常重要！！！！

摘要：请看下面代码：wstring s=L"abc,?重庆大学机械传动国家重点实验室,重庆,400044";string s1="abc,?重庆大学机械传动国家重点实验室,重庆,400044";cout<<"窄字符串模式下的长度"<<s1.size()<<endl;cout<<"宽字符串模式下的长度"<<s.size()<<endl;输出结果为：可以看出在宽字符串模式下：一个全角字符和一个半角字符占有的计数单位相同；在窄字符串模式下，一个全角字符的计阅读全文

posted @ 2011-03-04 19:01 finallyly 阅读(6138) 评论(4) 推荐(1) 编辑

【资料备份】c++声明二维变长数组，并用memset赋予0值

摘要：示例代码#include"stdafx.h"#include<iostream>usingnamespacestd;int_tmain(intargc,_TCHAR*argv[]){strings1="123456";strings2="abc";int**count=newint*[s2.size()];for(inti=0;i<s2.size();i++){count[i]=newint[s1.size()];memset(count[i],0,sizeof(int)*s1.size());}for(inti=0 阅读全文

posted @ 2011-03-04 15:08 finallyly 阅读(741) 评论(1) 推荐(2) 编辑

2011年3月3日

【工程处理技巧一篇】基于半规则数据的命名实体消歧识别【未完】

摘要：作者：finallyly 出处：博客园（转载请注明作者和出处）看到这篇文章的标题，您一定会以为此篇博客要讲解一个何等高深的算法。其实不然，本篇博客旨在分享笔者在处理那些繁杂、冗踏、低端甚至于极其TMDTMD无聊的体力工作中的一点见解。先说一下工作材料和需求和难点。工作材料：20W以上冗余的数据库。字段信息是（作者和工作单位）。工作需求：区分哪些同名的作者是一个人，哪些同名的作者不是一个人。入手思路：从工作单位字段来区分。如果工作单位字段里的内容完全相同，那么就为同一个人。工作难点：工作单位字段写的不够规范，比如有的单位字符串只写到大学如“沈阳大学”，有的单位字符串却具体到了院系甚至于研究所阅读全文

posted @ 2011-03-03 21:26 finallyly 阅读(460) 评论(0) 推荐(0) 编辑

2011年3月1日

c++文件操作之读取全部文本文件【zz】

摘要：将文件从头至尾读入内存 ifstreamifile(infoFromWekaAddress);stringstreamss;ss<<ifile.rdbuf()<<endl;stringrawtext=ss.str();ifile.close(); 阅读全文

posted @ 2011-03-01 17:03 finallyly 阅读(766) 评论(0) 推荐(1) 编辑

【转载】java 代码调用kmeans进行聚类

摘要：从wekaUI调用kmeans算法后，最后生成的的结果文件中，聚类中心向量表达的不够清晰。参照网上的做法，采用java code中调用weka中的kmeans算法。这段代码在网络上转载颇多，一时找不到出处。代码如下：java code中调用kmeans聚类importjava.io.*;importweka.clusterers.SimpleKMeans;importweka.core.DistanceFunction;//importweka.core.EuclideanDistance;importweka.core.Instances;importweka.core.converter 阅读全文

posted @ 2011-03-01 16:56 finallyly 阅读(1978) 评论(0) 推荐(1) 编辑

函数备份：按照指定的分隔符，将字符串进行切分

摘要： vector<string>Preprocess::mySplit(strings,set<string>stopwords){vector<string>wordCollection;trim(s,"");intnPosBegin=0;intnPosEnd=s.find(',',nPosBegin);while(nPosEnd!=string::npos){stringtemp=s.substr(nPosBegin,nPosEnd-nPosBegin);trim(temp,"");if(temp!=& 阅读全文

posted @ 2011-03-01 09:47 finallyly 阅读(393) 评论(0) 推荐(1) 编辑

2011年2月25日

将浮点数按照指定位数精度转换成字符串的C++函数

摘要： stringPreprocess::do_fraction(doubleval,intdecplaces){//intprec=numeric_limits<double>::digits10;charDECIMAL_POINT='.';ostringstreamout;//out.precision(prec);out<<val;stringstr=out.str();size_tn=str.find(DECIMAL_POINT);size_teposion=str.find('e');if(eposion==string::npos) 阅读全文

posted @ 2011-02-25 16:53 finallyly 阅读(1851) 评论(0) 推荐(1) 编辑

2011年2月21日

zz 标题: 求weka JVM outofMemory问题的解决方案【已解决】

摘要：发信人: finallyliuyu (领头驴), 信区: NLP标题: 求weka JVM outofMemory问题的解决方案发信站: 水木社区 (Sun Feb 20 10:36:12 2011), 站内正在用weka做文本分类的实验（主要侧重点在于衡量特征词选择算法的优劣）。语料库： Reteurs21578featurewords 100训练集规模：6950测试集规模:2676（采用稀疏数据储存模式）生成的arff文件大小：trainCorpus.arff(538k),testCorpus.arff(208k)分类器采用SMO结果报错run outof memory。参照一位同学的方阅读全文

posted @ 2011-02-21 21:16 finallyly 阅读(3693) 评论(2) 推荐(1) 编辑

2011年2月12日

ZZ差距在哪里

摘要：有人工作，有人上学，大家千万不要错过这篇文章，能看到这篇文章也是一种幸运，真的受益匪浅，对我有很大启迪，这篇文章将会改变你我的一生，真的太好了，希望与有缘人分享，也希望对有缘人有所帮助！看完之后有种“相见恨晚”的感觉，特别激动，希望大家好好的珍藏这篇文章，相信多年以后，再来看这篇文章，一定有不同的感觉。正如"打工皇帝"唐骏说："我觉得有两种人不要跟别人争利益和价值回报。第一种人就是刚刚进入企业的人，头5年千万不要说你能不能多给我一点儿工资，最重要的是能在企业里学到什么，对发展是不是有利…&#82 阅读全文

posted @ 2011-02-12 19:37 finallyly 阅读(491) 评论(2) 推荐(1) 编辑

公告