随笔分类 - 正则表达式
正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。
摘要:/** * 去除“第”之前的所有非汉字内容 */ private String clearNotChinese(String buff){ String tmpString =buff.replaceAll("(?i)[^a-zA-Z0-9\u4E00-\u9FA5]", "");//去掉所有中英文符号 char[] carr =...
阅读全文
摘要:这两天在用正则表达式搞一个稍微有点复杂的东西,但是不同浏览器之间的差异可浪费了我不少的人参。现在我把正则表达式在五大主流浏览器(IE、firefox、Chrome、Safari、Opera,以当前版本为准)之间的差异整理一下罗列出来,给大家,也算给我自己做一个备忘。Firefox和Chrome会过度...
阅读全文
摘要:package com.loongtao.general.crawler.slave;import java.util.regex.Matcher;import java.util.regex.Pattern;public class HtmlUtil { private static fin...
阅读全文
摘要:(?!=XXX[:|:|\s]?)\d{16}(?!=XXX)表示查找XXX内容,但最终结果不包括它(?=XXX)表示查找XXX内容,最终结果包括它[:|:|\s]? 表示 全角冒号,半角冒号,空格 或没有字符(pattern) 匹配pattern 并获取这一匹配。所获取的匹配可以从产生的Match...
阅读全文
摘要:转自:http://bbs.it-home.org/thread-12676-1-1.html/** *@author Xin Chen *Created on 2009-11-11 *Updated on 2010-08-09 *Email: xchen@ir.hit.edu.cn *Blog:...
阅读全文
摘要:这篇文章主要介绍了Java中替换HTML标签的方法代码,需要的朋友可以参考下replaceAll("\\&[a-zA-Z]{0,9};", "").replaceAll("]*>", "\n\t")源码如下:/** * 字符串替换 */package com.you.model; /** * H...
阅读全文
摘要:转自:http://www.jb51.net/article/24422.htm以前写过一篇文章讲解如何使用正则表达式完美解决Html嵌套标签的匹配问题(使用正则表达式匹配嵌套Html标签),但是里头用到了平衡组这样的高级特性,貌似只有DotNet还有Perl正则引擎支持,因此通用性不高。通用 HT...
阅读全文
摘要:1概述平衡组是微软在.NET中提出的一个概念,主要是结合几种正则语法规则,提供对配对出现的嵌套结构的匹配。.NET是目前对正则支持最完备、功能最强大的语言平台之一,而平衡组正是其强大功能的外在表现,也是比较实用的文本处理功能,目前只有.NET支持,相信后续其它语言会提供支持。平衡组可以有狭义和广义两...
阅读全文
摘要:正则表达式学习参考1概述正则表达式(Regular Expression)是一种匹配模式,描述的是一串文本的特征。正如自然语言中“高大”、“坚固”等词语抽象出来描述事物特征一样,正则表达式就是字符的高度抽象,用来描述字符串的特征。正则表达式(以下简称正则,Regex)通常不独立存在,各种编程语言和工...
阅读全文
摘要:地址:http://www.java3z.com/cwbwebhome/article/article8/Regex/Java.Regex.Tutorial.html#reg0_1
阅读全文
摘要:引言记得几年前在做网页爬虫后的信息抽取时,针对网页源码中隐藏的要提取的信息,比如评论、用户信息等属性信息,直接利用HtmlParser得到。如此做倒是简单,不过利用的是网页的规范的tag标记。其实java中的正则表达式也可以用来实现这一功能。而且对于非tag的一些有规律的系列组合的字符串,正则表达式...
阅读全文
摘要:注释(?#comment)小括号的另一种用途是通过语法(?#comment)来包含注释。例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。要包含注释的话,最好是启用“忽略模式里的空白符”选项,这样在编写表达式时能任意的添加空格...
阅读全文
摘要:首页|常用正则表达式|正则表达式测试工具正则表达式30分钟入门教程作者:deerchao转载请注明来源本文已更新,推荐您查看第二版。本文目标30分钟内让你明白正则表达式是什么,并对它有一些基本的了解,让你可以在自己的程序或网页里使用它。一旦入门后,你可以从网上找到更多更详细的资料来继续学习。别被下面...
阅读全文
摘要:1。^/d+$ //匹配非负整数(正整数+0)2。^[0-9]*[1-9][0-9]*$ //匹配正整数3。^((-/d+)|(0+))$ //匹配非正整数(负整数+0)4。^-[0-9]*[1-9][0-9]*$ //匹配负整数5。^-?/d+$ //匹配整数6。^/d+(/./d+...
阅读全文
摘要:import java.util.regex.Matcher; import java.util.regex.Pattern; /** * * Title: HTML相关的正则表达式工具类 * * * Description: 包括过滤HTML标记,转换HTML...
阅读全文