冰岛豆芽

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2013年4月17日

摘要: 下面总结记录一些关于http的cookie的知识:1.cookie的属性一般cookie所具有的属性,包括:Domain:域,表示当前cookie所属于哪个域或子域下面。此处需要额外注意的是,在C#中,如果一个cookie不设置对应的Domain,那么在CookieContainer.Add(cookies)的时候,会死掉,详情参考这里:【经验总结】Http,网页访问,request,response相关的知识。对于服务器返回的Set-Cookie中,如果没有指定Domain的值,那么其Domain的值是默认为当前所提交的http的请求所对应的主域名的。比如访问 http://www.exam 阅读全文
posted @ 2013-04-17 04:47 冰岛豆芽 阅读(203) 评论(0) 推荐(0) 编辑

摘要: 背景在网络,网页,网站处理方面,很多人都遇到过,想要用某种语言(Python,C#等),去实现一些需求,常见的有这几大类:想要从某静态网页中,提取某些内容想要抓取某些动态网页中的某些内容想要模拟登陆某个网站对于这类需求,其基本的背后逻辑,都是相同的。下面就是来介绍一下,如何实现这些功能。搞懂访问网页所涉及的http相关的逻辑知识先要搞懂对应的,访问url地址的背后的逻辑:需要你提供哪些内容:urlheaders:部分可选,部分必须cookies(可选)post data当是POST方法时,才需要然后获得什么样的内容:html源码(或其他的,json字符串,图片的数据等等)cookie(可能有) 阅读全文
posted @ 2013-04-17 04:34 冰岛豆芽 阅读(643) 评论(0) 推荐(0) 编辑

摘要: 看此文之前,(强烈建议)先去看:如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站然后,才明白,此文的作用和产生的背景。其中,本文的部分内容,也会在上述帖子,给出额外链接,其中有更详细的解释的。之前折腾了两个东西:BlogsToWordPress – 将百度空间,网易163等博客搬家到WordPressWLW (Windows Live Writer) Plugin–InsertSkydriveFiles了解了一些关于,如何抓取对应的网页内容,如何模拟登陆一个网站的大概逻辑和流程,以及一些注意事项。在此整理出来,仅供参考。抓取网页的一般逻辑和过程一般普通用户,用浏览器 阅读全文
posted @ 2013-04-17 04:01 冰岛豆芽 阅读(482) 评论(0) 推荐(0) 编辑