合集-爬虫实践
摘要:抓取金投网文本数据(xpath练习) 创建时间:2024年8月5日 一、完整代码 import requests from lxml import etree header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap
阅读全文
摘要:表情党抓取(单页) (网站已转移) 创建时间:2024-08-06 一、完整代码 import requests from lxml import etree url = 'https://qq.yh31.com/xq/wq/' header = { 'User-Agent': 'Mozilla/5
阅读全文
摘要:腾牛网抓取(单页) 创建时间:2024-08-05 一、完整代码 import requests from lxml import etree url = 'https://www.qqtn.com/wm/meinvtp_1.html' header = { 'User-Agent': 'Mozil
阅读全文
摘要:中信证券抓取(页码范围) 创建时间:2024年8月5日 一、完整代码 import re import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x6
阅读全文
摘要:三国演义内容抓取(诗词名句网) 时间:2024-08-06 一、完整代码 import random import time import requests from lxml import etree four_famous_novels = 'https://www.shicimingju.co
阅读全文
摘要:豆瓣短评榜单短评下载 创建时间:2024-08-07 一、完整代码 import requests from lxml import etree def get_html(main_url): header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.
阅读全文
摘要:彼岸网壁纸抓取 创建时间:2024-08-11 一、代码 1.1 代码 import os import random import time import requests from lxml import etree url = 'http://pic.netbian.com/' header
阅读全文
摘要:使用 Python 爬取豆瓣电影 Top250 多页数据 创建时间:2024-08-11 一、完整代码 ''' 抓取单贞数据 中的评分 简介 评价人数 将上面的改为多页 https://movie.douban.com/top250?start=0 ''' import requests from
阅读全文
摘要:豆瓣影评数据抓取 创建时间:2024-08-12 抓取豆瓣影评相关数据的代码,包括封面、标题、评论内容以及影评详情页的数据。 一、完整代码 ''' https://movie.douban.com/review/best/ 抓取封面 标题 评论內容 抓取完整的评论内容 也就是点击展开后的完整的 抓取
阅读全文
摘要:三国杀壁纸抓取 创建时间:2024年3月5日 背景 在一段时间里,我沉迷于三国杀手游。为此,我特意找到了一个专门抓取壁纸的网站。 先看效果 抓取思路分析 首先肯定是先找到需要抓取的网站: https://www.sanguosha.com/msgs/mWallPaper 在页面上看到查看更多,然后使
阅读全文
摘要:爬取王者荣耀官网的全部皮肤大图 创建时间:2024年3月1日 背景 爬取《王者荣耀》游戏图片。 思路分析 观察网页的html结构,我们可以找到每一个英雄的连接 将英雄页面提取出来,我们可以得出皮肤的名字和地址在什么地方,以上面规则组合起来的 效果 相关学习资料 BeautifulSoup中文文档:
阅读全文