摘要: 基于编辑距离和最长公共子串实现的文本相似度计算:计算公式为s=lc/(led+lc)lc为最长公共子串的长度led为编辑距离考虑到汉字和字符的不同,增加了Str2Word()进行字符串分词,实现单字的比较。代码写了一段时间了,有些遗忘。ld()为编辑距离求解lcsLen()为动态规划求解最长公共子串... 阅读全文
posted @ 2013-07-28 23:32 kuduogedi 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 前缀表达式前缀表达式就是不含括号的算术表达式,而且它是将运算符写在前面,操作数写在后面的表达式,为纪念其发明者波兰数学家Jan Lukasiewicz也称为“波兰式”。例如,- 1 + 2 3,它等价于1-(2+3)。复杂一点的(1+2)*4-(9-6)/3,前缀表达式为 - * + 1 2 4 / - 9 6 3前缀表达式是一种十分有用的表达式,它将中缀表达式转换为可以依靠简单的操作就能得到运算结果的表达式。例如,(a+b)*(c+d)转换为*,+,a,b,+,c,d。它的优势在于只用两种简单的操作,入栈和出栈就可以解决任何中缀表达式的运算。其运算方式为:如果当前字符(或字符串)为数字或变. 阅读全文
posted @ 2013-07-25 23:49 kuduogedi 阅读(898) 评论(0) 推荐(0) 编辑
摘要: python学习笔记之二(一)python----ConfigParser ConfigParser简介:在程序中使用配置文件来灵活的配置一些参数是一件很常见的事情,配置文件的解析并不复杂。ConfigParser解析的配置文件的格式比较象ini的配置文件格式,就是文件中由多个section构成,每个section下又有多个配置项。#test.conf [db] host=localhost root=root password=**** [user] username=xiao_ku userid=133Class RawConfigParse([defaults])基本配置类,当传递d.. 阅读全文
posted @ 2013-07-22 00:02 kuduogedi 阅读(197) 评论(0) 推荐(0) 编辑
摘要: python学习笔记之一 接触python有一段时间了,只是为了任务粗略的现学现弄,对于很多python的基础只是还似懂非懂,很不认真啊!从今天起,该好好补补知识了。(一)python----self self只有在python类的方法中才有,独立的函数和方法并不需要。这是类方法与普通方法的区别,类的方法必须有一个额外的第一参数self,不许赋值。=========引用=========例子说明:创建了一个类MyClass,实例化MyClass得到了MyObject这个对象,然后调用这个对象的方法MyObject.method(arg1,arg2) ,这个过程中,Python会自动转为Mycl 阅读全文
posted @ 2013-07-21 00:01 kuduogedi 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 这个模块提供了与 Perl 相似l的正则表达式匹配操作。Unicode字符串也同样适用。正则表达式使用反斜杠" \ "来代表特殊形式或用作转义字符,这里跟Python的语法冲突,因此,Python用" \\\\ "表示正则表达式中的" \ ",因为正则表达式中如果要匹配" \ ",需要用\来转义,变成" \\ ",而Python语法中又需要对字符串中每一个\进行转义,所以就变成了"\\\\ "。上面的写法是不是觉得很麻烦,为了使正则表达式具有更好的可读性,Python特别设计 阅读全文
posted @ 2013-07-20 18:11 kuduogedi 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 这里主要介绍Python中常用的正则表达式处理函数。re.match re.match 尝试从字符串的开始匹配一个模式,如:下面的例子匹配第一个单词。import re text = "JGood is a handsome boy, he is cool, clever, and so on..." m = re.match(r"(\w+)\s", text) if m: print m.group(0), '\n', m.group(1) else: print 'not match' re.match的函数原型为:r 阅读全文
posted @ 2013-07-20 18:08 kuduogedi 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 文本比较算法Ⅱ——Needleman/Wunsch算法 在“文本比较算法Ⅰ——LD算法”中介绍了基于编辑距离的文本比较算法——LD算法。 本文介绍基于最长公共子串的文本比较算法——Needleman/Wunsch算法。 还是以实例说明:字符串A=kitten,字符串B=sitting 那他们... 阅读全文
posted @ 2013-07-18 15:10 kuduogedi 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 文本比较算法Ⅰ——LD算法 在日常应用中,文本比较是一个比较常见的问题。文本比较算法也是一个老生常谈的话题。 文本比较的核心就是比较两个给定的文本(可以是字节流等)之间的差异。目前,主流的比较文本之间的差异主要有两大类。一类是基于编辑距离(Edit Distance)的,例如LD算法。一类是基于... 阅读全文
posted @ 2013-07-18 11:14 kuduogedi 阅读(299) 评论(0) 推荐(0) 编辑
摘要: python下的MySQLdb使用2010-12-08 18:39:02标签:pythonMySQLdb mysql 数据库 休闲 下载安装MySQLdb linux版本http://sourceforge.net/projects/mysql-python/ 下载,在安装是要先安装setuptools,然后在下载文件目录下,修改mysite.cfg,指定本地mysql的mysql-config文件的路径windows版本网上搜索到一个http://www.technicalbard.com/files/MySQL-python-1.2.2.win32-py2.6.exe安装后import . 阅读全文
posted @ 2013-06-18 18:02 kuduogedi 阅读(147) 评论(0) 推荐(0) 编辑