aibbt_com - 博客园

2018年3月9日

摘要：近期，有些朋友问我一些关于如何应对反爬虫的问题。由于好多朋友都在问，因此决定写一篇此类的博客。把我知道的一些方法，分享给大家。博主属于小菜级别，玩爬虫也完全是处于兴趣爱好，如有不足之处，还望指正。在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用 HTML 表单或其他网页文件），然后对数据进行解析，提取需要的信息。说句实在话，如果我的网站总是让人爬来爬取的，经常被虚拟访问者骚扰，我也是蛮烦的，而且如果遇到“霸道”一点的爬虫，都能直接把服务器卡死。因此，我们在爬取别人网站的时候，也多为对方考虑考虑。不过话说回来，我却没有这个烦恼，为什么呢？因为我根本就没有自己的网站阅读全文

posted @ 2018-03-09 12:28 aibbt_com 阅读(3738) 评论(0) 推荐(2)

【小白学爬虫连载（10）】–如何用Python实现模拟登陆网站

摘要： Python实现模拟登陆的方式简单来说有三种：一、采用post请求提交表单的方式实现。二、利用浏览器登陆网站记录登陆成功后的cookies，采用get的请求方式，传入cookies值来实现登陆。三、采用模拟浏览器的方式登陆。三种方式各有利弊，采用第一种方式每次运行程序都是重新登陆，容易造成封账号的情况出现，同时不能用在验证码是JS加载生成的和查看不到提交表单格式这两种情况。我认为第二种方式优于第一种和第三种，大多数情况下推荐使用第二种。对于较大规模的采集，一般的做法是利用大量小号采用第一或第三种方式定期生成大量的cookies，保存起来形成一个自己的cookie池，并维护其有效性，在采集时调用cookie池中的cookies完成爬取。阅读全文

posted @ 2018-03-09 12:23 aibbt_com 阅读(1577) 评论(0) 推荐(0)

2018年3月8日

用Python来找合适的妹子

摘要：用Python来找合适的妹子阅读全文

posted @ 2018-03-08 16:34 aibbt_com 阅读(281) 评论(0) 推荐(0)