小偷程序的学习总结
小偷程序由两部分组成,一是访问,二是匹配。
->访问有两部分组成,一是匿名访问,二是登陆访问。
->->匿名访问由两部分组成,一是浏览器访问,二是爬虫访问。
->->登陆访问由两部分组成,一是普通登陆,二是ssl登陆。
登陆一般是,你输入用户名和密码,选择记住密码,点击登陆;网站给你创建cookie。下次进入网站,把cookie 也发过去,不用登陆。
匹配有两部分组成,一是正则,二是字符串自带的查找。
具体.NET开发,涉及到WebClient类,这是最容易使用的类。它只提供爬虫访问,易被屏蔽。但它提供了大概的开发流程,根据uri获取流,用文本流(或字节流)来读取流,把文本流转换为文本(或转换为二进制下载)。
接下来是WebRequest类和WebResponse类,及其扩展的子类HttpWebReuquest类和HttpWebResponse类。1.可以用它们来设置http报头相关信息,比如模拟浏览器。2.设置ssl证书信息。3.使用代理。4.带上Cookie。5.异步页面请求。
访问注意点:1.要设置访问间隔,太过频繁,很可能会被主机屏蔽。
合乎自然而生生不息。。。