摘要: 做房产网站的垂直搜索,大多数网站的网页都是动态的,所以无法从response里面提取last-modified,而房产网页里面都带有时间,但是格式却不尽相同:有2007-10-01,2007年10月1日等等。所以就写了一个类专门提取时间,并把时间提取之后统一存为2007-01-01的格式。1publicstringGetPubdate()2{3intnDateStart;4StringstrDat... 阅读全文
posted @ 2007-08-01 13:24 Jadepark 阅读(802) 评论(3) 推荐(0) 编辑
摘要: 命名空间里有两个类:1.HtmlUtil;2.Htmlpage。分别引用的别人的写好的类,其中也做了不少改变。一开始是用HtmlUtil解析网页,它使用正则表达式解析HTML网页,后来发现某些情况下解析的不是太好。后来在sourceforge里面发现了MLIHTML拿过来用了一下,还不错。1usingSystem;2usingSystem.Collections.Generic;3usingSys... 阅读全文
posted @ 2007-08-01 13:20 Jadepark 阅读(11123) 评论(43) 推荐(0) 编辑
摘要: 1namespaceLuceneReader2{3publicpartialclassfrmMain:Form4{5privateintm_StartAt;6privateintm_EndAt;7privateintPAGE_LENGTH=20;89publicfrmMain()10{11m_StartAt=0;1213InitializeComponent();14}1516privatevoi... 阅读全文
posted @ 2007-08-01 11:45 Jadepark 阅读(622) 评论(1) 推荐(0) 编辑