随笔 - 404
文章 - 0
评论 - 1037
阅读 -
136万
03 2011 档案
关于文档写作、幻灯片制作以及资料整理的一点见解
摘要:1 写作此文的动机 近一个月以来,仅做了一项工作:硕士论文开题。说来很惭愧,16页的开题报告,30页PPT,竟然耗费了三周的时间。归结原因发现一方面是由于自己对word,ppt的制作技巧不熟悉,但更重要的是在于自己对题目领会不深,不能从过去一年的工作中提炼出来研究方案和研究思路。但是,这并不等同于我在过去的一年中没有进行调研和编码工作。 昨日开题结束,还算顺利。今日应该开始做一些工程编码工作。可是...
阅读全文
借助weka实现的分类器进行针对文本分类问题的特征词选择实验(实验代码备份)
摘要:主函数头文件View Code 1include"stdafx.h"2#include"Preprocess.h"3#include"common.h"4#include"CorpusProcess.h"5#include"LibSvmClassifier.h"第一部分:建立词典和关联表1Preprocess::FUNCSEGseg=&Preprocess::goodWordsinPieceArticle;2intbeginIndex=1;3intendIndex=6950;4Prepr
阅读全文
子串匹配算法
摘要:1 子串匹配算法 T串为待匹配的字符串;P为模式串;且 len(T)>len(P) 1.1 int i=0; int j=0; while(i<len(T)-len(P)+1&&j<len(P)) { if (T[i]==p[j]) { i++; j++; } else { j=0; i=i-j+2 } } if (j=len(T)) { return i-j+1; } else { return -1; } BF算法 1.1.1 BF法要点 [1] 工作原理: 如果工作下标i,j对应的字符相同,那么则两个工作下标都向后移;反之j回溯到模式字符串的首字符,j回
阅读全文
C++ strlen和size的等价性
摘要:char*s="b";stringg="b";intlen=strlen(s);cout<<len<<endl;cout<<g.size()<<endl;cout<<"finish"<<endl;
阅读全文
【转载】科研型PPT制作的注意事项
摘要:http://hi.baidu.com/zhangsiyun25/blog/item/4f8a1c295005cdf7e6cd40c1.html从全局考虑要有汇报主线,所有片子都是围绕主线展开;汇报前后要有逻辑关系,回报内容要逐项展开,想清楚什么内容应该在什么地方说,不是说需要将所有内容都放到背景里面讲的。从一张片子的细节来说,一张片子你要讲的内容不要过多,片子的内容可以很多,但你要让用户接受的内容不要过多,要知道用户不是学生,他们不可能认真的跟着你的思路深入思考。片子内容过多时可以使用动画进行控制用户对内容的理解。让用户知道片子中过多的信息点,你到底是在讲哪一个。讲时要流畅是第一,第二思路要
阅读全文
提高自己的文字表达能力
摘要:作者:finallyly 出处:博客园 博客中开辟“读书生活”子目录。旨在记录自己读书的感悟,和总结,一方面提高自己的语言表达能力,一方面也是积累素材。
阅读全文
LCS算法示例的主函数调用
摘要:作者finallyly 出处 博客园(转载请注明作者和出处)main.cpp#include"stdafx.h"#include"stringprocess.h"#include<iostream>#include"windows.h"usingnamespacestd;wstringString2Wstring(stringsResult){intiWLen=MultiByteToWideChar(CP_ACP,0,sResult.c_str(),sResult.size(),0,0);//计算转换后宽字符串的长度。(不
阅读全文
字符串相似度计算之LCS(longest common sequence)
摘要:作者:finallyly 出处 :博客园(转载请注明作者和出处) 衡量字符串的相似度有多种方法,比如:检验两个字符串之间是否具有子串关系;在某个给定操作集合中定义一个串变化到另一个串所经历的操作数(如编辑距离公式);寻找另一个子串,该子串中的字符在两个待比较的串中都有出现,而且出现的前后顺序相同,另外我们不要求子串中的字符在待比较的串中是连续出现的,这个子串就被定义为common sequence。最长的子串被称作(longest common sequence)。 最近做的一个项目中需要实现一个基于LCS,以LCS为核心的算法,所以参照了《算法导论》上面的介绍,自己实现了LCS。并在此博文中
阅读全文
杂乱无章 代码备份
摘要:stringprocess p,*k;k=&p;int stringprocess:: *s=&stringprocess::len;k->*s=7;cout<<k->len<<endl;
阅读全文
新手初学C++:带有指针型数据成员的类
摘要:作者:finallyly 出处:博客园(注意:转载请注明作者和出处)最近打算写一个算法类,算法类中要有一个指针型数据成员,然而该指针型数据成员却不能在构造函数只能够分配堆内存(因为此时我们还不确定数组的维度),只有调用了某个函数之后,方知道动态数组维度,考虑不在类的构造函数中调用确定数组维度的那个函数做如下设想:在类的其他其他成员函数中为该指针成员分配堆内存,析构函数中释放该数据成员。问了几个同学和网友后做如下设计:该类classstringprocess{public:stringprocess(void);~stringprocess(void);//intGetLongestCommon
阅读全文
说说我最近的烦心事儿
摘要:作者:finallyly 出处:博客园(转载,请注明作者和出处) 硕士毕业论文即将开题,两周内就要交开题报告和开题PPT。而且身上还压了一个基于半规则数据库的作者实体识别问题,一个英汉词典自动对照校对的任务。这两个任务从本质上来讲,都涉及到了语义理解的问题,如果搞不好的话,就要人工纯手工识别了,这时这两项工作就变成了一个既费时,又费力,还不讨好的蛋疼工作了。好在工作中发现了一些规律,能够让后续工作者和我并行工作,而不是串行工作。 数据采集任务本来就比较繁琐,时而有噪声存在也是不可避免的,但是不做这个工作的人往往不能有词直观的感受,他们会苛刻的认为“知识库”就应该是perfect的,凡是有一点噪
阅读全文
C++字符串:string and wstring的区别,非常重要!!!!
摘要:请看下面代码:wstring s=L"abc,?重庆大学机械传动国家重点实验室,重庆,400044";string s1="abc,?重庆大学机械传动国家重点实验室,重庆,400044";cout<<"窄字符串模式下的长度"<<s1.size()<<endl;cout<<"宽字符串模式下的长度"<<s.size()<<endl;输出结果为:可以看出在宽字符串模式下:一个全角字符和一个半角字符占有的计数单位相同;在窄字符串模式下,一个全角字符的计
阅读全文
【资料备份】c++声明二维变长数组,并用memset赋予0值
摘要:示例代码#include"stdafx.h"#include<iostream>usingnamespacestd;int_tmain(intargc,_TCHAR*argv[]){strings1="123456";strings2="abc";int**count=newint*[s2.size()];for(inti=0;i<s2.size();i++){count[i]=newint[s1.size()];memset(count[i],0,sizeof(int)*s1.size());}for(inti=0
阅读全文
【工程处理技巧一篇】基于半规则数据的命名实体消歧识别【未完】
摘要:作者:finallyly 出处:博客园(转载请注明作者和出处) 看到这篇文章的标题,您一定会以为此篇博客要讲解一个何等高深的算法。其实不然,本篇博客旨在分享笔者在处理那些繁杂、冗踏、低端甚至于极其TMDTMD无聊的体力工作中的一点见解。 先说一下工作材料和需求和难点。工作材料:20W以上冗余的数据库。字段信息是(作者和工作单位)。工作需求:区分哪些同名的作者是一个人,哪些同名的作者不是一个人。入手思路:从工作单位字段来区分。如果工作单位字段里的内容完全相同,那么就为同一个人。工作难点:工作单位字段写的不够规范,比如有的单位字符串只写到大学如“沈阳大学”,有的单位字符串却具体到了院系甚至于研究所
阅读全文
c++文件操作之读取全部文本文件【zz】
摘要:将文件从头至尾读入内存 ifstreamifile(infoFromWekaAddress);stringstreamss;ss<<ifile.rdbuf()<<endl;stringrawtext=ss.str();ifile.close();
阅读全文
【转载】java 代码调用kmeans进行聚类
摘要:从wekaUI调用kmeans算法后,最后生成的的结果文件中,聚类中心向量表达的不够清晰。参照网上的做法,采用java code中调用weka中的kmeans算法。 这段代码在网络上转载颇多,一时找不到出处。代码如下:java code中调用kmeans聚类importjava.io.*;importweka.clusterers.SimpleKMeans;importweka.core.DistanceFunction;//importweka.core.EuclideanDistance;importweka.core.Instances;importweka.core.converter
阅读全文
函数备份:按照指定的分隔符,将字符串进行切分
摘要:vector<string>Preprocess::mySplit(strings,set<string>stopwords){vector<string>wordCollection;trim(s,"");intnPosBegin=0;intnPosEnd=s.find(',',nPosBegin);while(nPosEnd!=string::npos){stringtemp=s.substr(nPosBegin,nPosEnd-nPosBegin);trim(temp,"");if(temp!=&
阅读全文