摘要: 这篇文章主要介绍了Java中替换HTML标签的方法代码,需要的朋友可以参考下replaceAll("\\&[a-zA-Z]{0,9};", "").replaceAll("]*>", "\n\t")源码如下:/** * 字符串替换 */package com.you.model; /** * H... 阅读全文
posted @ 2014-09-04 17:59 GisClub 阅读(3063) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.jb51.net/article/24422.htm以前写过一篇文章讲解如何使用正则表达式完美解决Html嵌套标签的匹配问题(使用正则表达式匹配嵌套Html标签),但是里头用到了平衡组这样的高级特性,貌似只有DotNet还有Perl正则引擎支持,因此通用性不高。通用 HT... 阅读全文
posted @ 2014-09-04 17:57 GisClub 阅读(1547) 评论(0) 推荐(0) 编辑
摘要: 1概述平衡组是微软在.NET中提出的一个概念,主要是结合几种正则语法规则,提供对配对出现的嵌套结构的匹配。.NET是目前对正则支持最完备、功能最强大的语言平台之一,而平衡组正是其强大功能的外在表现,也是比较实用的文本处理功能,目前只有.NET支持,相信后续其它语言会提供支持。平衡组可以有狭义和广义两... 阅读全文
posted @ 2014-09-04 17:52 GisClub 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 正则表达式学习参考1概述正则表达式(Regular Expression)是一种匹配模式,描述的是一串文本的特征。正如自然语言中“高大”、“坚固”等词语抽象出来描述事物特征一样,正则表达式就是字符的高度抽象,用来描述字符串的特征。正则表达式(以下简称正则,Regex)通常不独立存在,各种编程语言和工... 阅读全文
posted @ 2014-09-04 17:35 GisClub 阅读(153) 评论(0) 推荐(0) 编辑
摘要: /** * * @param s * @return 获网页标题 */ public String getTitle(final String s) { String regex; String title = ""; final List list = new ArrayList(... 阅读全文
posted @ 2014-09-04 15:15 GisClub 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 地址:http://www.java3z.com/cwbwebhome/article/article8/Regex/Java.Regex.Tutorial.html#reg0_1 阅读全文
posted @ 2014-09-04 15:13 GisClub 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 引言记得几年前在做网页爬虫后的信息抽取时,针对网页源码中隐藏的要提取的信息,比如评论、用户信息等属性信息,直接利用HtmlParser得到。如此做倒是简单,不过利用的是网页的规范的tag标记。其实java中的正则表达式也可以用来实现这一功能。而且对于非tag的一些有规律的系列组合的字符串,正则表达式... 阅读全文
posted @ 2014-09-04 15:07 GisClub 阅读(6131) 评论(0) 推荐(0) 编辑
摘要: 注释(?#comment)小括号的另一种用途是通过语法(?#comment)来包含注释。例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。要包含注释的话,最好是启用“忽略模式里的空白符”选项,这样在编写表达式时能任意的添加空格... 阅读全文
posted @ 2014-09-04 11:56 GisClub 阅读(676) 评论(0) 推荐(0) 编辑
摘要: 首页|常用正则表达式|正则表达式测试工具正则表达式30分钟入门教程作者:deerchao转载请注明来源本文已更新,推荐您查看第二版。本文目标30分钟内让你明白正则表达式是什么,并对它有一些基本的了解,让你可以在自己的程序或网页里使用它。一旦入门后,你可以从网上找到更多更详细的资料来继续学习。别被下面... 阅读全文
posted @ 2014-09-04 11:31 GisClub 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 1。^/d+$ //匹配非负整数(正整数+0)2。^[0-9]*[1-9][0-9]*$ //匹配正整数3。^((-/d+)|(0+))$ //匹配非正整数(负整数+0)4。^-[0-9]*[1-9][0-9]*$ //匹配负整数5。^-?/d+$ //匹配整数6。^/d+(/./d+... 阅读全文
posted @ 2014-09-04 11:12 GisClub 阅读(24825) 评论(0) 推荐(0) 编辑
摘要: import java.util.regex.Matcher; import java.util.regex.Pattern; /** * * Title: HTML相关的正则表达式工具类 * * * Description: 包括过滤HTML标记,转换HTML... 阅读全文
posted @ 2014-09-04 09:47 GisClub 阅读(368) 评论(0) 推荐(0) 编辑