PlayWithHeyCoder

背景：爽哥买了个域名heycoder.com,用做自己的个人技术blog.

后加:特么服务器超级不稳定啊.艹,测试做好心里准备.

写的主要内容是关于一些自己的技术知识的积累和分享。(绝对非广告,绝对背景,我去,特么也没写几篇啊)

前段时间闲着没事儿，看到同事做的数据采集的代码.也想跟着学学.

这不就有了想法儿,就想先用他的网站先试试手,毕竟废水不留外人田嘛.

首先看了下网站的html.得亏代码结构不是很复杂,不然就搞不定呐.嘿嘿... 接下来看操作流程:

我觉得,抓取网页内容最重要的就是根据需求获取指定数据(不知道怎么形容了),

当然我认为比较有效率的就是正则匹配查找(特么地,提到正则就头疼啊),

之前对正则只在会看、会用的level(意指简单的能看懂一点,别人写好现成的搜到会用).

接下来说代码,这边只是描述需要用到的正则,具体大家对应代码观看.

大家去看heycoder的列表页可以看到都是<h3>包含的.看下图.

虽然页面中还有其他的h3标签,但是他别的加了class, 嘎嘎. 省得费事了.

因此我用直接用了最简单的表达式 (?<=<h3>).*(?=</h3>).

正则意思：提取页面中h3包含的内容去除开始和结尾h3标签.

这样提取到的只是带有a标签的内容.还需要提取链接和文本.

提取到url和text之后,保存到集合中,循环读取详情页内容.

详情页的内容都是<div class="cont_text">包含的.

同样表达式走起 @"(?<=<div class=""cont_text"">)[\s\S]*(?=</div>[\s\S]*<p class=""align-right"">)"

正则意思：提取div包含的内容并去除开始和结尾div标签,并且结束的div必须是在<p class="align-right">前面的.

数据都取到后就是保存了.保存代码就不说了.用的最简单的StreamWriter去操作的.

在此过程中,我google的时候搜到的一些链接,供大家以后使用.

此文章会持续更新...

欢迎猿儿们fork.

欢迎指出错误,交流学习.

posted @ 2013-03-02 23:32 mr3 阅读(322) 评论(1) 编辑收藏举报

刷新页面返回顶部

mr3