由抓取豆瓣信息想到的網絡知識

View Post

這幾天我們宿舍嘗試將豆瓣上的圖書信息抓取下來。放到自己數據庫中，每種看似可行的方法無不以失敗告終。
我最初的想法是。利用它提供的api，直接抓取。

ISBN從0开始，循環到999999999999。無效就continue跳過，多麼nice。
但是，明文寫著访問每分鐘不能超過10次，否則就404fobbiden；於是。增加sleep，每43秒访問一次，原以為這樣就能够解決了，沒想到。抓到幾十本的時候，又被封鎖了。好！換api。Google的限制
再想辦法，
我們是校園網內網。開一個wifi。這樣子相當於又弄了一個小型內網。用wifi的人去抓，原以為他這樣就無法識別，因為之前我們工作室做p2p的時候。曾認為這是非常難有解的問題。沒想到。。

。

。。。。。

。究竟他是怎樣識別的呢？
再想！翻牆，再來抓取！！。的確，能够。但是速度堪憂。再換想法，換代理IP。！！

！

！速度抓雞。。

。。。。

當初我還留著一個迫不得已的辦法：直接向學校圖書館請求圖書信息了。

。

。。

。。可行性感覺不大

最後，不得不向豆瓣master申請api，他仁慈的給我了。：）

posted on 2017-04-26 16:51 cynchanpin 阅读(130) 评论(0) 编辑收藏举报

刷新页面返回顶部