摘要:
做房产网站的垂直搜索,大多数网站的网页都是动态的,所以无法从response里面提取last-modified,而房产网页里面都带有时间,但是格式却不尽相同:有2007-10-01,2007年10月1日等等。所以就写了一个类专门提取时间,并把时间提取之后统一存为2007-01-01的格式。1publicstringGetPubdate()2{3intnDateStart;4StringstrDat... 阅读全文
摘要:
命名空间里有两个类:1.HtmlUtil;2.Htmlpage。分别引用的别人的写好的类,其中也做了不少改变。一开始是用HtmlUtil解析网页,它使用正则表达式解析HTML网页,后来发现某些情况下解析的不是太好。后来在sourceforge里面发现了MLIHTML拿过来用了一下,还不错。1usingSystem;2usingSystem.Collections.Generic;3usingSys... 阅读全文
摘要:
1namespaceLuceneReader2{3publicpartialclassfrmMain:Form4{5privateintm_StartAt;6privateintm_EndAt;7privateintPAGE_LENGTH=20;89publicfrmMain()10{11m_StartAt=0;1213InitializeComponent();14}1516privatevoi... 阅读全文