摘要:
由于要抓取的是悦音台mv的排行榜,这个排行榜是实时更新的,如果要求不停地抓取,这将有可能导致悦音台官方采用反爬虫的技术将ip给封掉。所以这里要应用一些反爬虫相关知识。 目标网址:http://vchart.yinyuetai.com/vchart/trends?area=ML 网站结构: 上面红线圈 阅读全文
摘要:
反爬虫 的技术大概分为四个种类: 注:文末有福利! 一、通过User-Agent来控制访问: 无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requests headers: 这里面的大多数的字段都是浏览器向服务器”表明身份“用的对于爬虫程序 阅读全文
摘要:
1.目标网址:http://dianying.2345.com/top/ 需要找到的信息:电影的名字,主演,简介,和标题图片 2.查看页面结构: 容易看到,需要的主题部分,都被包裹在‘<ul>“列表标签里, 那么简单的用bs4库找到 "<ul>" tag并迭代取出每一条“<li>”tag, 最后再从 阅读全文