摘要: 引言记得几年前在做网页爬虫后的信息抽取时,针对网页源码中隐藏的要提取的信息,比如评论、用户信息等属性信息,直接利用HtmlParser得到。如此做倒是简单,不过利用的是网页的规范的tag标记。其实java中的正则表达式也可以用来实现这一功能。而且对于非tag的一些有规律的系列组合的字符串,正则表达式... 阅读全文
posted @ 2014-09-04 15:07 GisClub 阅读(6132) 评论(0) 推荐(0) 编辑
摘要: 注释(?#comment)小括号的另一种用途是通过语法(?#comment)来包含注释。例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。要包含注释的话,最好是启用“忽略模式里的空白符”选项,这样在编写表达式时能任意的添加空格... 阅读全文
posted @ 2014-09-04 11:56 GisClub 阅读(676) 评论(0) 推荐(0) 编辑
摘要: 首页|常用正则表达式|正则表达式测试工具正则表达式30分钟入门教程作者:deerchao转载请注明来源本文已更新,推荐您查看第二版。本文目标30分钟内让你明白正则表达式是什么,并对它有一些基本的了解,让你可以在自己的程序或网页里使用它。一旦入门后,你可以从网上找到更多更详细的资料来继续学习。别被下面... 阅读全文
posted @ 2014-09-04 11:31 GisClub 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 1。^/d+$ //匹配非负整数(正整数+0)2。^[0-9]*[1-9][0-9]*$ //匹配正整数3。^((-/d+)|(0+))$ //匹配非正整数(负整数+0)4。^-[0-9]*[1-9][0-9]*$ //匹配负整数5。^-?/d+$ //匹配整数6。^/d+(/./d+... 阅读全文
posted @ 2014-09-04 11:12 GisClub 阅读(25107) 评论(0) 推荐(0) 编辑
摘要: import java.util.regex.Matcher; import java.util.regex.Pattern; /** * * Title: HTML相关的正则表达式工具类 * * * Description: 包括过滤HTML标记,转换HTML... 阅读全文
posted @ 2014-09-04 09:47 GisClub 阅读(368) 评论(0) 推荐(0) 编辑
摘要: SOLR (全文检索)http://sinykk.iteye.com/1. 什么是SOLR官方网站http://wiki.apache.org/solrhttp://wiki.apache.org/solr/DataImportHandler本文档以solr3.4 tomcat6.3 IKAnaly... 阅读全文
posted @ 2014-09-03 17:59 GisClub 阅读(1039) 评论(0) 推荐(0) 编辑
摘要: 按位非运算符,简单的理解就是改变运算数的符号并减去1,当然,这是只是简单的理解能转换成number类型的数据。那么,对于typeof var!==”number”的类型来说,进行运算时,会尝试转化成32位整形数据,如果无法转换成整形数据,就转换为NaN;JS在位运算上用了更简便的一种方法来实现这中运... 阅读全文
posted @ 2014-09-03 17:47 GisClub 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 转自:http://guoyunsky.iteye.com/blog/1169912队列很常见,但大部分的队列是将数据放入到内存.如果数据过多,就有内存溢出危险,而且长久占据着内存,也会影响性能.比如爬虫,将要抓取的URL放到内存,而URL过多,内存肯定要爆.在读Heritrix源码中,发现Heri... 阅读全文
posted @ 2014-09-03 13:48 GisClub 阅读(842) 评论(0) 推荐(0) 编辑
摘要: 队列是一种特殊的线性表,它只允许在表的前端(front)进行删除操作,只允许在表的后端(rear)进行插入操作。1.队列的顺序存储结构及实现public class SequenceQueue{ private int DEFAULT_SIZE = 10; //保存数组的长度。 p... 阅读全文
posted @ 2014-09-03 10:44 GisClub 阅读(345) 评论(0) 推荐(0) 编辑
摘要: class Element{ int id; String name; Element(int a,String n){ id=a;name=n; }}class SeqQueue{ int first,last,maxsize; Element q... 阅读全文
posted @ 2014-09-03 10:01 GisClub 阅读(565) 评论(0) 推荐(0) 编辑