发布一款基于C#的网络爬虫程序 - 薛定谔的旺财（刘杨） - 博客园

发布一款基于C#的网络爬虫程序

这是一款用 C# 编写的网络爬虫，发布在：http://nwebcrawler.codeplex.com/。

主要特性有：

可配置：线程数、线程等待时间，连接超时时间，可爬取文件类型和优先级、下载目录等。
状态栏显示统计信息：排入队列URL数，已下载文件数，已下载总字节数，CPU使用率和可用内存等。
有偏好的爬虫：可针对爬取的资源类型设置不同的优先级。
健壮性：十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。
较好的性能：基于正则表达式的页面解析、适度加锁、维持HTTP连接等。

参见下面的截图：

今后有空可能加入的特性：

新特性	介绍
爬取文件用Berkeley DB存储	提高性能：常用操作系统不善于处理大量小文件
基于URL Ranking的优先级队列	主题爬虫：机器学习算法对链接与主题相关度进行评估，并按照得出的优先级顺序进行爬取
爬虫礼仪	遵循爬虫禁止协议、以及避免对服务器资源的过度使用等
性能优化	用UDP取代封装好的HttpWebRequest/Response DNS缓存异步的DNS地址解析硬盘缓存或内存数据库以避免频繁的磁盘寻道分布式爬虫以扩展单机能力（CPU、内存和硬盘访问）

posted on 2010-01-05 01:00 薛定谔的旺财（刘杨）阅读(50715) 评论(88) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区，博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】博客园社区专享云产品让利特惠，阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 没有源码，如何修改代码逻辑？
· 一个奇形怪状的面试题：Bean中的CHM要不要加volatile？
· ［.NET］调用本地 Deepseek 模型
· 一个费力不讨好的项目，让我损失了近一半的绩效！
· .NET Core 托管堆内存泄露/CPU异常的常见思路

阅读排行：
· 微软正式发布.NET 10 Preview 1：开启下一代开发框架新篇章
· 没有源码，如何修改代码逻辑？
· NetPad：一个.NET开源、跨平台的C#编辑器
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验

导航

<

2010年1月

>

日

一

二

三

四

五

六

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

公告

昵称：薛定谔的旺财（刘杨）
园龄： 15年2个月
粉丝： 77
关注： 1

随笔档案

友情链接

江大侠

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:用今日头条的方法推荐公开课
思路变为产品，赞你。
--木乃伊
2. Re:用今日头条的方法推荐公开课
不错！
--马三小伙儿
3. Re:发布一款基于C#的网络爬虫程序
=market/configList
--geckokuaiyi
4. Re:发布一款基于C#的机器视觉库
非常感谢提供资源！
--jsxyhelu
5. Re:发布一款基于C#的网络爬虫程序
楼主，我最近在学习，可以发一份源码学习吗1411683116@qq.com，非常感谢！
--紫林御风

支持DeepSeek的编程助手