2014 年 3月 27 日随笔档案 - 程序员徐坤

2014年3月27日

摘要： 1.[代码][C#]代码 01HttpWebRequest req = (HttpWebRequest)HttpWebRequest.Create("");02req.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705;)";03req.Method = "POST";04req.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*; 阅读全文

posted @ 2014-03-27 18:14 程序员徐坤阅读(257) 评论(0) 推荐(0) 编辑

httpwebrequest 模拟登录获取cookies 以前的代码,记录备忘!

摘要： 2个类,一个基类,一个构建头信息调用类关于如何获取到post中的内容,你之需要用http抓包工具把你与目标网站的请求信息抓下来后,打开分析下按照抓下来的包中的数据进行构建就行了[Csharp] view plaincopyusingSystem;usingSystem.Collections.Generic;usingSystem.Text;usingSystem.Net;usingSystem.IO;namespacebot{publicclassHtml{//////httpwebrequest类中的一些属性的集合///publicstructRequestPPT{privatestrin 阅读全文

posted @ 2014-03-27 18:13 程序员徐坤阅读(347) 评论(2) 推荐(0) 编辑

伪装豆瓣爬虫程序——如何解决豆瓣禁用爬虫程序？

摘要：最近因为业务需要，要将豆瓣上的图书以及影视信息抓取下来，网页抓取其实很简单，很快就完成，但是系统还没上线就发现了问题，豆瓣会根据请求分析客户的行为，判断是否是机器人，如果判断为机器人，将要求输入验证码，最终导致抓取不到数据。要解决这个问题，主要就两个思路，一个是识别验证码，当要求输入验证码时，识别图片中的验证码；另外一方案是伪装成正常访问，绕过豆瓣的分析程序。前一种方案受限于验证码识别率太低，很难满足需求，最终只能考虑第二种方案了。通过分析豆瓣的分析判断机器人的实际情况，发现豆瓣是根据ip 以及cookie信息统计访问频率来确定是否为“机器人”，有以下几种实际情况，1.不带cookie信息访问阅读全文

posted @ 2014-03-27 18:11 程序员徐坤阅读(2775) 评论(0) 推荐(0) 编辑

MusiCode 批量下载指定歌手的所有专辑（已解除验证码限制）

摘要：一直想把喜欢的歌手的专辑全都归类并下载下来，由于那专辑数量实在太多了，再加上最近开始学习python，就想着何不用python写个脚本把下载过程自动化呢？所以就花了点时间写了这么个东西，分享给有需要的人。:) 写这个东西，一开始并没有想到抓取过于频繁、时间过长会出现验证码，由于验证码的问题试了几种方式都无法得到很好的解决，于是加上了生成下载清单这一步，加这一步的时候，一开始是把最终下载地址存储起来，结果发现，下载地址居然会过期，没办法最后只有将下载页面地址存储下来，使用下载命令的时候，再去下载页面获取最终下载地址。这段脚本使用了两个开源的模块，gevent和BeautifulSoup。 .. 阅读全文

posted @ 2014-03-27 18:09 程序员徐坤阅读(383) 评论(0) 推荐(0) 编辑

公告