摘要: 由于腾讯视频评论处进行触碰处理,点击后,网址是不变的,所以需要先进行分析。 网址:HBO纪录片:成为沃伦·巴菲特【正片】_成为沃伦·巴菲特_腾讯视频 (qq.com) 点击更多评论,查看F12,可以发现其网址。 打开后,我们发现其通过 'first'和'last’进行评论的翻页。我们需要对网址二次赋 阅读全文
posted @ 2021-08-18 16:51 徐海建 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 网址:豆瓣电影 (douban.com) 和豆瓣读书类似,需要对爬虫的headers进行处理。 import requests import re for i in range(0,2): j = i*20 url = 'https://movie.douban.com/j/search_subje 阅读全文
posted @ 2021-08-18 16:40 徐海建 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 豆瓣网站禁止了爬虫爬取,需要对其进行简单的反爬虫处理后才可进行提取。 https://book.douban.com/robots.txt 网址:豆瓣读书 (douban.com) F12,找到 User-agent ,在爬虫程序中进行添加。 import requests import re fo 阅读全文
posted @ 2021-08-18 16:27 徐海建 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 网址:畅销榜_正版电子书在线阅读_百度阅读 (baidu.com) 根据页数,提取网址,查看其变化,进行爬取。 import requests import re for i in range(0,10): j = i*20 url = 'https://yuedu.baidu.com/rank/h 阅读全文
posted @ 2021-08-18 16:14 徐海建 阅读(128) 评论(0) 推荐(0) 编辑