python爬虫---表情包批量采集

代码：

import requests
from pyquery import PyQuery as pq  # 比xpath还要灵活的html解析工具

# 定义请求
headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "Cookie": "wp_xh_session_16c522c7d534bf6487d9468a3bd29107=656874b5170c21bdda03793c065cae8a%7C%7C1640268459%7C%7C1640264859%7C%7Cc31c2b17bba3ec3ff355ee795c78e8f3",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62"
}
html = requests.get("http://www.bbsnet.com/biaoqingbao", headers=headers).text
# 将数据加载到工厂
data = pq(html)
ret = data(".thumbnail a img").items()
# 通过循环提取每一个
for i in ret:
    # 图片地址
    addr = i.attr("src")
    # 图片名称
    name = i.attr("alt")
    # print("图片的名称是%s，图片的地址%s"%(name,addr))
    # 访问链接获取内容
    img_data = requests.get(addr).content
    with open("./emoji/%s.gif" % name, "wb") as file:
        file.write(img_data)
    print("表情包：%s保存成功！" % name)

posted @ 2021-12-23 15:20 睡觉不困阅读(96) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！

公告

昵称：睡觉不困
园龄： 4年5个月
粉丝： 61
关注： 7

+加关注

2025年3月

日

一

二

三

四

五

六

睡觉不困

python爬虫---表情包批量采集

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论