摘要:
作者:finallyly 出处:博客园(转载,请注明作者和出处) 硕士毕业论文即将开题,两周内就要交开题报告和开题PPT。而且身上还压了一个基于半规则数据库的作者实体识别问题,一个英汉词典自动对照校对的任务。这两个任务从本质上来讲,都涉及到了语义理解的问题,如果搞不好的话,就要人工纯手工识别了,这时这两项工作就变成了一个既费时,又费力,还不讨好的蛋疼工作了。好在工作中发现了一些规律,能够让后续工作者和我并行工作,而不是串行工作。 数据采集任务本来就比较繁琐,时而有噪声存在也是不可避免的,但是不做这个工作的人往往不能有词直观的感受,他们会苛刻的认为“知识库”就应该是perfect的,凡是有一点噪 阅读全文
摘要:
请看下面代码:wstring s=L"abc,?重庆大学机械传动国家重点实验室,重庆,400044";string s1="abc,?重庆大学机械传动国家重点实验室,重庆,400044";cout<<"窄字符串模式下的长度"<<s1.size()<<endl;cout<<"宽字符串模式下的长度"<<s.size()<<endl;输出结果为:可以看出在宽字符串模式下:一个全角字符和一个半角字符占有的计数单位相同;在窄字符串模式下,一个全角字符的计 阅读全文
摘要:
示例代码#include"stdafx.h"#include<iostream>usingnamespacestd;int_tmain(intargc,_TCHAR*argv[]){strings1="123456";strings2="abc";int**count=newint*[s2.size()];for(inti=0;i<s2.size();i++){count[i]=newint[s1.size()];memset(count[i],0,sizeof(int)*s1.size());}for(inti=0 阅读全文
摘要:
作者:finallyly 出处:博客园(转载请注明作者和出处) 看到这篇文章的标题,您一定会以为此篇博客要讲解一个何等高深的算法。其实不然,本篇博客旨在分享笔者在处理那些繁杂、冗踏、低端甚至于极其TMDTMD无聊的体力工作中的一点见解。 先说一下工作材料和需求和难点。工作材料:20W以上冗余的数据库。字段信息是(作者和工作单位)。工作需求:区分哪些同名的作者是一个人,哪些同名的作者不是一个人。入手思路:从工作单位字段来区分。如果工作单位字段里的内容完全相同,那么就为同一个人。工作难点:工作单位字段写的不够规范,比如有的单位字符串只写到大学如“沈阳大学”,有的单位字符串却具体到了院系甚至于研究所 阅读全文
摘要:
将文件从头至尾读入内存 ifstreamifile(infoFromWekaAddress);stringstreamss;ss<<ifile.rdbuf()<<endl;stringrawtext=ss.str();ifile.close(); 阅读全文
摘要:
从wekaUI调用kmeans算法后,最后生成的的结果文件中,聚类中心向量表达的不够清晰。参照网上的做法,采用java code中调用weka中的kmeans算法。 这段代码在网络上转载颇多,一时找不到出处。代码如下:java code中调用kmeans聚类importjava.io.*;importweka.clusterers.SimpleKMeans;importweka.core.DistanceFunction;//importweka.core.EuclideanDistance;importweka.core.Instances;importweka.core.converter 阅读全文
摘要:
vector<string>Preprocess::mySplit(strings,set<string>stopwords){vector<string>wordCollection;trim(s,"");intnPosBegin=0;intnPosEnd=s.find(',',nPosBegin);while(nPosEnd!=string::npos){stringtemp=s.substr(nPosBegin,nPosEnd-nPosBegin);trim(temp,"");if(temp!=& 阅读全文
摘要:
stringPreprocess::do_fraction(doubleval,intdecplaces){//intprec=numeric_limits<double>::digits10;charDECIMAL_POINT='.';ostringstreamout;//out.precision(prec);out<<val;stringstr=out.str();size_tn=str.find(DECIMAL_POINT);size_teposion=str.find('e');if(eposion==string::npos) 阅读全文
摘要:
发信人: finallyliuyu (领头驴), 信区: NLP标 题: 求weka JVM outofMemory问题的解决方案发信站: 水木社区 (Sun Feb 20 10:36:12 2011), 站内正在用weka做文本分类的实验(主要侧重点在于衡量特征词选择算法的优劣)。语料库: Reteurs21578featurewords 100训练集规模:6950测试集规模:2676(采用稀疏数据储存模式)生成的arff文件大小:trainCorpus.arff(538k),testCorpus.arff(208k)分类器采用SMO结果报错run outof memory。参照一位同学的方 阅读全文
摘要:
有人工作,有人上学,大家千万不要错过这篇文章,能看到这篇文章也是一种幸运,真的受益匪浅,对我有很大启迪,这篇文章将会改变你我的一生,真的太好了,希望与有缘人分享,也希望对有缘人有所帮助!看完之后有种“相见恨晚”的感觉,特别激动,希望大家好好的珍藏这篇文章,相信多年以后,再来看这篇文章,一定有不同的感觉。 正如"打工皇帝"唐骏说:"我觉得有两种人不要跟别人争利益和价值回报。第一种人就是刚刚进入企业的人,头5年千万不要说你能不能多给我一点儿工资,最重要的是能在企业里学到什么,对发展是不是有利…R 阅读全文