德馨轩

斯是陋室，惟吾德馨。QQ:275000205

:: :: :: ::

::

37 随笔 :: 0 文章 :: 30 评论 :: 56700 阅读

公告

昵称： Anpher Zhang
园龄： 16年4个月
粉丝： 15
关注： 5

+加关注

随笔分类 (24)

随笔档案 (37)

评论排行榜

最新评论

1. Re:ASP.NET通用采集程序GatherInfo的实现(原创)
值得学习。
--sharp.M
2. Re:Android优美代码赏析:Snake游戏分析
@ 【当耐特砖家】比较清晰简单，当然容易火...
--Anpher Zhang
3. Re:Android优美代码赏析:Snake游戏分析
贪吃蛇很火啊，哈哈
--【当耐特砖家】
4. Re:OK6410入手，MARK一下
@ swat0716开发板送的光盘里有移植好的uboot代码，先参照那个把整个uboot学习了再进行移植吧，盲目开始移植是缺乏指导，比较耗费时间的。...
--Anpher Zhang
5. Re:OK6410入手，MARK一下
你好。我也买的是ok6410开发板，在移植uboot过程遇到，一些问题。有时间想请教你。谢谢
--swat0716

ASP.NET通用采集程序GatherInfo的实现(原创)

这是我面试的题目，借用了很多网上同仁的代码，如有冒犯，请海涵！

现在工作真难找，我应聘的单位是http://www.027dns.net/,希望公司经理能给我上班的机会，我会很努力的，因为软件行业才是我的世界！我一个大学本科生当保安都成了同事们的笑话了，呵呵。

这是我第一次求职软件行业，第一次做面试题目，第一次自己这么认真写博客文章，写的不好，大家请指正，我会进步的！

张素丰，转载请注明出处http://www.cnblogs.com/zhangsufeng/archive/2009/02/28/1400224.html

屁话少说，正文开始：

假如我们采集网址：http://info.laser.hc360.com/list/z_news_yw.shtml 上的新闻，要求采集标题、时间、内容、单篇文章如果有翻页则采集完全。

这种类型的采集就是从指定网页获得新闻列表(即url)，然后通过其url获得新闻详情，这是一种很常见的采集方式，有可能到很多页面上去采集，所以我们可以采用接口来构造基类。

首先定义 IGatherInfo.cs

Code

接口定义了三个成员：gatherTime采集时间，GatherUrlList（）从指定网址抽取新闻Url，GatherNewsDetail()读取新闻详细内容。

下面我们分析一下该程序中可能要用的公共方法，定义在 GatherInfoBase.cs

1.时间转换函数string DateToString()

Code

2.获取远程文件源代码 string GetRemoteHtmlCode(string url)

Code

3.从HtmlCode截取字符串 string SniffwebCode(string code, string wordsBegin, string wordsEnd)，用于抽取标题，时间，正文

Code

4.替换HTML源代码 string RemoveHTML(string HtmlCode)，用于将抽取到的正文内容去Html

Code

5.更改文件名方法string changFileName(string filename, string addStr)，利用其分页规律定义其增加的字符，

Code

6.获取页面连接

Code

接下来我们定义一个NewsDeatil.cs

Code

因为程序比较小，所以我采用access来存取数据，创建GatherInfo_laser_hc360.db，添加两个表

GatherUrls：strUrl 备注，strGahterTime 文本

GatherInfos：strUrl 备注,upTime 文本,title 文本,content 备注

用数据集实现数据连接，代码中可见。

最后我们来实现对所给网址的采集，直接给出代码

Code
1

/// <summary>
2

/// 慧聪网激光频道新闻咨询
3

/// Http://info.laser.hc360.com/list/z_news_yw.shtml
4

///
5

/// </summary>
6

public class laser_hc360 : GatherInfoBase, IGatherInfo
7

{
8

public void Dispose()
9

{
10

GC.SuppressFinalize(this);
11

}
12

13

IGatherInfo 成员
130

}
131

posted on 2009-02-28 12:39 Anpher Zhang 阅读(5609) 评论(25) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 字节豆包，来园广告
· 我用cursor, 半就开发了一个手机壁纸小程序，真的太强了
· 订单超时自动取消，我们是这样做的。。。
· 为什么推荐在 .NET 中使用 YAML 配置文件
· 聊一聊 C#前台线程如何阻塞程序退出

AI助手

德馨轩

公告

常用链接

我的标签

随笔分类 (24)

随笔档案 (37)

评论排行榜

最新评论