python爬虫 - 随笔分类 - little小新

14、爬虫-异步协程爬取西游记小说-aiohttp-aiofiles

摘要：注意：有关所有的IO操作都要加上：await 挂起 """ https://dushu.baidu.com/pc/detail?gid=4306063500 #小说网站 https://dushu.baidu.com/api/pc/getCatalog?data={%22book_id%22:%22 阅读全文

posted @ 2024-07-01 22:27 little小新阅读(110) 评论(0) 推荐(0)

13、爬虫-协程-asyncio和异步操作-aiohttp

摘要：概念：当程序sleep或者input、output等待的时候、cpu是处于堵塞状态的、cpu此时是不再为我们的代码服务的、所以协程就是当遇到了前面这种情况的时候可以选择性的切换到其他任务上同步协程：asyncio 当程序在睡眠的时候注意加上： await asyncio.sleep(2) """ 阅读全文

posted @ 2024-07-01 22:27 little小新阅读(105) 评论(0) 推荐(0)

12、爬虫-案例-爬取网易云评论

摘要：阅读全文

posted @ 2024-07-01 22:27 little小新阅读(14) 评论(0) 推荐(0)

11、爬虫-代理

摘要：""" 通过第三方的ip去请求 """ import requests #8.130.39.155:3389 proxies = { "https":"http://58.20.248.139:9002", } headers = { "User-Agent":"Mozilla/5.0 (Windo 阅读全文

posted @ 2024-07-01 22:26 little小新阅读(142) 评论(0) 推荐(0)

10、爬虫-requests的使用-session()、防盗链

摘要：#会话-cookie的使用 requests.session() """ 先登录网站、找到llogin相关的url 得到cookie、拿到format Data中的信息带着cookie去请求url 使用cookie去访问（session-会话）该网站其它内容的时候都会带着cookie """ im 阅读全文

posted @ 2024-07-01 22:25 little小新阅读(49) 评论(0) 推荐(0)

9、爬虫-xpath-selenium爬取网页隐藏元素

摘要：安装：pip install lxml 1、导入：from lxml import etree 2、创建对象： tree = etree.XML(xml文件) tree = etree.HTML(html文件) 等 3、找标签： tree.xpath("//book/name/text()") 4、阅读全文

posted @ 2024-07-01 22:25 little小新阅读(222) 评论(0) 推荐(0)

8、爬虫-beatifulsoup-bs4

摘要：beatifulsoup的概念：Beautiful Soup就是Python的一个HTML或XML的解析库，可以用它方便地提取页面的数据。 1、安装bs4：pip install bs4 2、使用：from bs4 import BeautifulSoup 3、创建对象：BeautifulSoup（阅读全文

posted @ 2024-07-01 22:24 little小新阅读(48) 评论(0) 推荐(0)

7、爬虫-爬取音乐

摘要：1、查找请求音乐播放的请求 url地址：以酷我音乐为例拿到url 对url进行分析：https://www.kuwo.cn/api/v1/www/music/playUrl?mid=326968713&type=music&httpsStatus=1&reqId=bf6ff0b0-acb0-11 阅读全文

posted @ 2024-07-01 22:24 little小新阅读(349) 评论(0) 推荐(0)

6-爬虫-数据存储

摘要：分类：文本类型数据：txt、csv、execl、数据库多媒体类型：图片、音乐、视频 """ y音频存储 """ import requests headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWe 阅读全文

posted @ 2024-07-01 22:23 little小新阅读(21) 评论(0) 推荐(0)

5、爬虫-数据的提取-xpath-html中提取

摘要：从哪里提取：html、json、xml 实现方式：正则、截取、xpath、css、bs4 这里使用xpath工具： ·安装：pip install lxml """ 使用xpath工具提取网页中视频的标题 """ import requests from lxml import etree #使用阅读全文

posted @ 2024-07-01 22:23 little小新阅读(175) 评论(0) 推荐(0)

4、爬虫-数据获取之双R（CS/BS）与chrom检查工具使用-requests请求

摘要：模拟客户端请求服务端： ·模拟请求行和请求头、请求体 """ 模拟客户端请求获取静态数据和动态数据使用python自己去构造请求使用request """ """ 请求的构成：请求行、请求头、请求体 """ ###########################静态页面加载请求的###### 阅读全文

posted @ 2024-07-01 22:22 little小新阅读(49) 评论(0) 推荐(0)

3、爬虫-selenium-获取用户cookie的使用

摘要：注意这里使用的是chrom浏览器、所以要下载对应版本的chromdriver.exe工具、且放在同一文件目录下或者在电脑中设置环境变量、或者放在pycharm安装目录下的 E:\installDir\python\Scripts 路径下即可 chromedriver-120.exe from sel 阅读全文

posted @ 2024-07-01 22:22 little小新阅读(169) 评论(0) 推荐(0)

2、爬虫-安装anaconda工具

摘要：1、官网：https://www.anaconda.com/download-success 2、一直下一步安装即可 3、打开 4、输入：jupyter notebook 打开有一个浏览器的界面 5、右上角点击new新建python3（ipykernel）阅读全文

posted @ 2024-07-01 22:22 little小新阅读(38) 评论(0) 推荐(0)

1、python-爬虫-request和beautifulsoup4模块-Fidder爬取网页工具

摘要：1、安装模块 >beautifulsoup4模块依赖于lxml模块 pip install lxml -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com pip install beautifulsoup4 -i http 阅读全文

posted @ 2024-07-01 22:21 little小新阅读(54) 评论(0) 推荐(0)

python-爬虫-获取浏览器的cookies

摘要：1、封装浏览器对象 # -*- coding: utf-8 -*- """ 封装类将获取浏览器的对象封装成一个类调用方法： 1、import Get_Browser 2、driver = Get_Browser.Get_Browsers().get_browser() """ from sele 阅读全文

posted @ 2024-06-12 17:26 little小新阅读(264) 评论(0) 推荐(0)

python-爬虫-邮箱发送

摘要：# -*- coding: utf-8 -*- #发送信息到邮箱 import email.utils import smtplib from email.mime.text import MIMEText #发送文本 from email.mime.image import MIMEImage # 阅读全文

posted @ 2024-06-12 17:22 little小新阅读(50) 评论(0) 推荐(0)

python-爬虫-playwright模块反爬

摘要：from playwright.sync_api import Playwright, sync_playwright, expect def run(playwright: Playwright) -> None: #指定浏览器启动的端口 #打开cmd：chrome --remote-debugg 阅读全文

posted @ 2024-06-12 16:59 little小新阅读(697) 评论(0) 推荐(0)

python-爬虫-解决反爬机制-登录淘宝

摘要：#-*- coding: utf-8 -*- """ 1、先手动登录获取cookie 2、获取cookie保存在taobaoCookies.pickle 文件中 3、使用cookie去请求网页 """ import os import pickle import time from selenium 阅读全文

posted @ 2024-06-12 16:58 little小新阅读(837) 评论(0) 推荐(0)

littlecc

无限制的技术都要学

随笔分类 - python学习 / python爬虫

公告