笔记:使用.NET做RSS抓取应用程序

搞了有一段时间了,记点笔记。

  1. 频道(Feed)的解析,开始自己写,很多东西搞不定,后使用RSS.NET的类库,很不错,一劳永逸。这里面涉及到了不少的东西:如,各种RSS版本的兼容,最新更新的文章的比对入库等。
  2. 多线程,线程池。以前没有做过类似的东西,费了不少劲,现在还可以接受,但是还有很多需要优化。只要是使用多线程分头去读取各个频道(Feed),并将日志写入LOG文件。使用生产者-消费者的模式。把所有的频道(Feed)放入到一个堆栈中,作为生产者;各个线程都是消费者。
  3. 对抓取的频道(Feed)设置优先级,用优先级决定抓取的频率和次数。(暂时还没有考虑)
  4. 现有问题,如何控制抓取一个频道(Feed)的时候的超时时间?
  5. 程序运行时占用基本上都是CPU100%,内存也进本上吃透了,性能是个问题啊
  6. 总之,现在勉强还可以用,迫切需要优化。

上面是技术笔记,从商业角度来说我对做一个“抓虾”或者bloglines或者博客搜索缺乏信心。同时又知道了自己基础薄弱,学习能力有待加强。人生短暂,不能空有一腔热血,更多的是学习,动手做!

好好学习,天天向上!

posted on 2007-01-23 18:18  dnddn  阅读(2530)  评论(10编辑  收藏  举报

导航