上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 41 下一页
摘要: 本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。 注意:本文基于Python2.4完成;如果看到不明白的词汇请记得百度谷歌或维基,what... 阅读全文
posted @ 2016-03-27 15:16 StevenLuke 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 广义的分类(classification或者categorization)有两种含义:一种含义是有指导的学习(supervised learning)过程,另一种是无指导的学习(unsupervised learning)过程。通常前者称为分类,后者称为聚类(clustering)... 阅读全文
posted @ 2016-03-27 15:11 StevenLuke 阅读(668) 评论(0) 推荐(0) 编辑
摘要: 摘要 TextRank是一个图排序模型,还是一个非监督方法。可用于关键字提取和短语提取。 TextRank模型 TextRank基于全图,递归获取全局信息,来决定每个顶点的重要性。 其中,d是阻尼系数,通常取0.85。(论文Brin and Page,1998)。 TextRank算法运行结... 阅读全文
posted @ 2016-03-24 22:10 StevenLuke 阅读(547) 评论(0) 推荐(0) 编辑
摘要: WM.h #ifndef WM_H#define WM_H#include #include #include#define HASHTABLESIZE (256*256)#define MAXLEN 256typedef struct wm_pattern_struct{ struct wm_... 阅读全文
posted @ 2016-03-21 19:57 StevenLuke 阅读(322) 评论(0) 推荐(0) 编辑
摘要: AC-BM算法将待匹配的字符串集合转换为一个类似于Aho-Corasick算法的树状有限状态自动机,但构建时不是基于字符串的后缀而是前缀。匹配时,采取自后向前的方法,并借用BM算法的坏字符跳转(Bad Character Shift)和好前缀跳转(Good Prefix Shift)技术。 ... 阅读全文
posted @ 2016-03-19 19:27 StevenLuke 阅读(296) 评论(0) 推荐(0) 编辑
摘要: ACBM算法: ACBM算法是在AC自动机的基础之上,引入了BM算法的多模扩展,实现的高效的多模匹配。和AC自动机不同的是,ACBM算法不需要扫描目标文本串中的每一个字符,可以利用本次匹配不成功的信息,跳过尽可能多的字符,实现高效匹配。 比如:{P} = {her,where,red... 阅读全文
posted @ 2016-03-19 14:10 StevenLuke 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 在 Java2中,有一套设计优良的接口和类组成了Java集合框架Collection,使程序员操作成批的数据或对象元素极为方便。这些接口和类有很多对抽象数据类型操作的API,而这是我们常用的且在数据结构中熟知的。例如Map,Set,List等。并且Java用面向对象的设计对这些数据结构和算法进... 阅读全文
posted @ 2016-03-17 16:20 StevenLuke 阅读(130) 评论(0) 推荐(0) 编辑
摘要: Wu-Manber算法采用跳跃不可能匹配字符和hash散列的方法,加速匹配的进行。该方法需要对所有模式进行预处理,构建SHIFT,HASH和PREFIX这3个表。SHIFT表同Boyer-Moore算法里的转移表,用来存储字符集中所有块字符在文本中出现时的转移距离;HASH表用来存储匹配窗... 阅读全文
posted @ 2016-03-16 21:13 StevenLuke 阅读(1549) 评论(0) 推荐(0) 编辑
摘要: 上一篇文章,我介绍了KMP算法。 但是,它并不是效率最高的算法,实际采用并不多。各种文本编辑器的"查找"功能(Ctrl+F),大多采用Boyer-Moore算法。 Boyer-Moore算法不仅效率高,而且构思巧妙,容易理解。1977年,德克萨斯大学的Robert S. Boyer教授... 阅读全文
posted @ 2016-03-15 14:16 StevenLuke 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 在我的《AC算法详解》一文中,还存在一个很大的疏漏,那就是用蛮力法计算自动机的fail跳转表,这实际上是一个极度低效的方法。在Aho,Corasick两人的论文中,给出的是逐层求fail表的方法,两人证明了这个方法可以在O(n)(其中n为所有模式串的总长度和)时间复杂度内计算出模式集合P的fa... 阅读全文
posted @ 2016-03-12 14:04 StevenLuke 阅读(163) 评论(0) 推荐(0) 编辑
上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 41 下一页