上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 41 下一页
  2010年12月27日
摘要: 作者finallyliuyu 出处博客园通过C++处理reuters21578(一)的代码,初步形成了两张表单存放训练语料库和测试语料库,由于这两个语料库的个别类别不一致,所以要找到这两个语料库类别的交集,然后最终形成文本分类的训练语料库和测试语料库。以下主函数中完成此功能。[代码]数据库中共有多少个类别Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--vectorstringGetLabels(stringtablename){vectors 阅读全文
posted @ 2010-12-27 16:12 finallyly 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.sina.com.cn/s/blog_4e66cb5f0100cdh1.html谈机器学习(Machine Learning)大家 (full version)闲着无事,想写点一些我所了解的machine learning大家。由于学识浅薄,见识有限,并且仅局限于某些领域,一些在NLP及最近很热的生物信息领域活跃的学者我就浅陋无知,所以不对的地方大家仅当一笑。Machine Learning 大家(1):M. I. Jordan (http://www.cs.berkeley.edu/~jordan/) 在我的眼里,M Jordan无疑是武林中的泰山北斗。他师出M 阅读全文
posted @ 2010-12-27 12:36 finallyly 阅读(1699) 评论(2) 推荐(0) 编辑
摘要: 作者:finallyliuyu 出处:博客园主函数调用注意:目前算法仅能对八的倍数比特明文进行加密。如要实现对任意长度明文加密,需要padding补零,使其成为8的倍数比特代码 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--#include"myDES.h"#include"string.h"voidmain(){printf("finish\n");charmingwen[8]={'a','b','c','d','e','f','g','h'} 阅读全文
posted @ 2010-12-27 09:46 finallyly 阅读(649) 评论(0) 推荐(0) 编辑
摘要: 作者:finallyliuyu 出处:博客园声明:此篇博文代码来自于邹德强先生。由于目前找到的版本是残缺版,所以我又进行了补全。读一份好代码,可以领略到作者的编程风格和语言驾驭能力,同时又能从其中汲取养分。现将我所修改后的DES加密解密代码全部张贴出来,有需要的也可以在上面继续改动comon.h[代码]myDES.cpp Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--//DES.cpp:implementationofthemyDESclass. 阅读全文
posted @ 2010-12-27 09:42 finallyly 阅读(2045) 评论(1) 推荐(0) 编辑
  2010年12月26日
摘要: 主席说过:“谁是我们的敌人?谁是我们的朋友?这个问题是革命的首要问题。”敌人能给我们带来伤害,而朋友能给我们带来帮助。在技术学习中也可以采用这种观点,分清哪些技术是朋友,哪些技术是敌人。所谓敌人,也就是和当下是竞争者关系的对象,所谓朋友,就是和当下是互补关系的对象。辨析竞争关系和互补关系,是很重要的技巧。别人卖刀你卖刀,别人卖水你卖水,这就是竞争关系。别人卖刀你卖金创药,这就是互补关系。在技术学习中,就需要善于辨识出所选择对象中的竞争关系和互补关系。比如,Java和.Net之间在企业开发领域是竞争关系。MSSQLServer和Oracle是竞争关系。在Web开发领域,Python、Ruby、A 阅读全文
posted @ 2010-12-26 10:28 finallyly 阅读(613) 评论(0) 推荐(0) 编辑
  2010年12月16日
摘要: 作者:finallyliuyu 出处:博客园最近在做关于文本分类算法的验证。汉语新闻分类的语料库采用的是我自己爬取的新闻。英文分类语料库考虑采用reuters需要处理reuters21578文本分类语料库。下面给出处理reuters2178的代码,主要功能就是从文本中提取新闻标题、内容、类别存储到mssql2000中。把代码拷贝下来,留在这里做份备忘,主要是因为里面涉及了些boost::regex的使用,已经宽窄字符集转换。尤其是boost::regex的使用,有很多注意事项,比如C#中的\s+,boost要用“\\s+”等。比如boost::regex中的dotmatchnewline 模式 阅读全文
posted @ 2010-12-16 11:31 finallyly 阅读(1951) 评论(10) 推荐(0) 编辑
  2010年12月15日
摘要: 言   1951年9月,原中央人民政府出版总署公布了《标点符号用法》,同年10月原政务院下达指示,要求全国遵照使用。四十年来,文字书写和书刊排印已由直行改为横行,标点符号用法也有了某些发展变化,因此, 1990年3月,国家语言文字工作委员会和中华人民共和国新闻出版署重新发布了修订后的《标点符号用法》。本标准就是在新颁《标点符号用法》的基础上制定的。  本标准参考了国内外标点符号用法的文献,广泛听取了语文学界、新闻界、出版界、教育界的意见。  本标准对汉语书面语中常见的标点符号用法进行了规定和说明,目的在于使人们正确掌握标点符号用法,以准确表达文意,推动汉语书面语言的规范化。  本标准从1996 阅读全文
posted @ 2010-12-15 16:01 finallyly 阅读(3016) 评论(0) 推荐(0) 编辑
  2010年12月13日
摘要: void Preprocess::SplitDocument(int begin,int end,string tablename){char * selectbySpecificId=new char [1000];memset(selectbySpecificId,0,1000);sprintf_s(selectbySpecificId,1000,"select ArticleId,CAbstract1 ,CAbstract from %s where ArticleId between %d and %d",tablename.c_str(),begin,end);if(!ICTCLAS 阅读全文
posted @ 2010-12-13 19:12 finallyly 阅读(1456) 评论(0) 推荐(0) 编辑
  2010年12月1日
摘要: 什么是全角和半角? (1)全角---指一个字符占用两个标准字符位置。 汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符。一般的系统命令是不用全角字符的,只是在作文字处理时才会使用全角字符。 (2)半角---指一字符占用一个标准的字符位置。 通常的英文字母、数字键、符号键都是半角的,半角的显示内码都是一个字节。在系统内部,以上三种字符是作为基本代码处理的,所以... 阅读全文
posted @ 2010-12-01 15:40 finallyly 阅读(2798) 评论(0) 推荐(0) 编辑
  2010年11月10日
摘要: 我这个PPT做的相对简略,不适合学习。建议你读《信息检索导论》中的第十三章,一目了然。我PPT里面的很多东西都是借鉴了这本书RT。最近二师兄让我做个关于文本分类的报告,于是就有了这份PPT。算是对我以往两个月工作的一个总结。PPT下载地址见http://files.cnblogs.com/finallyliuyu/TextClassification.ppt该PPT其实也是对我过去写的一系列文本分类博文的总结,所以相关内容,大家可以参考我的“置顶”系列博文。有网友反应,我的博文中“链接”套用的很乱,点来点去,就找不到入口了。对此,我深感抱歉!以前确实没有考虑过这个问题,只是在置顶系列博文中加入 阅读全文
posted @ 2010-11-10 15:15 finallyly 阅读(1965) 评论(18) 推荐(1) 编辑
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 41 下一页