摘要: 其实说我写的是爬虫程序,有些大了,因为它并不是无限制的读取Html分析出Url继续爬取,我的程序的主要目的在于把一个页面中特定的内容取下来,而不用人一个页面一个页面的浏览和Ctrl+C了... 所以我没用任何Html的分析类,完全用自己的想法和知识,进行Html字符串的操作,大多集中在String 的substring的应用上了,没有使用大部分Html分析类中运用的C#索引Attribute href = tag["HREF"]处理方法.也没有用太多的正则表达式,用正则表达式取Web2.0的url时,回漏和出错,因为以前的Url都出现在href标志后,用标签等方法找到href就可以找到一个url了,现在的url可以出现在任何位置. 阅读全文
posted @ 2009-03-31 19:11 梳子 阅读(1089) 评论(0) 推荐(1) 编辑
摘要: 上一篇已经把Html代码和编码信息弄到本地了,这时候还是存在内存,你的string字符串中,如果你不想保存,依然可以直接分析这个字符串,然后抛弃它,不备份.如果希望以后还可以使用或参考,想备份下来的话,那一般就可以吧这个string存到某个储存介质中.存到数据库我就不写了,太简单了,一个数据库insert或update操作而已. 写一下如何存进文件吧.这是从string型字符串写入文件,也是基础的代码.重点是写入sw时的编码需要设置,不然读下来gb2312编码的页面,默认写入的话可能就会中文乱码,这个问题只会出现在中文和日文里貌似,如果你只抓取英文页面就不用考虑了. 阅读全文
posted @ 2009-03-31 18:36 梳子 阅读(919) 评论(2) 推荐(2) 编辑
摘要: zf-cnblogs 标签: 爬虫,页面抓取,C# 最近做毕设的时候,指导老师说现有的资料不够,项目负责人要求去某某高校的图书馆上抓些FAQ的信息回来帮助筛选...于是我又有了新任务--写个爬虫程序 阅读全文
posted @ 2009-03-31 17:58 梳子 阅读(3326) 评论(1) 推荐(1) 编辑