随笔分类 -  python学习 / python爬虫

摘要:注意:有关所有的IO操作都要加上:await 挂起 """ https://dushu.baidu.com/pc/detail?gid=4306063500 #小说网站 https://dushu.baidu.com/api/pc/getCatalog?data={%22book_id%22:%22 阅读全文
posted @ 2024-07-01 22:27 little小新 阅读(20) 评论(0) 推荐(0) 编辑
摘要:概念:当程序sleep或者input、output等待的时候、cpu是处于堵塞状态的、cpu此时是不再为我们的代码服务的、所以协程就是当遇到了前面这种情况的时候可以选择性的切换到其他任务上 同步协程:asyncio 当程序在睡眠的时候注意加上: await asyncio.sleep(2) """ 阅读全文
posted @ 2024-07-01 22:27 little小新 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2024-07-01 22:27 little小新 阅读(5) 评论(0) 推荐(0) 编辑
摘要:""" 通过第三方的ip去请求 """ import requests #8.130.39.155:3389 proxies = { "https":"http://58.20.248.139:9002", } headers = { "User-Agent":"Mozilla/5.0 (Windo 阅读全文
posted @ 2024-07-01 22:26 little小新 阅读(122) 评论(0) 推荐(0) 编辑
摘要:#会话-cookie的使用 requests.session() """ 先登录网站、找到llogin相关的url 得到cookie、拿到format Data中的信息 带着cookie去请求url 使用cookie去访问(session-会话)该网站其它内容的时候都会带着cookie """ im 阅读全文
posted @ 2024-07-01 22:25 little小新 阅读(10) 评论(0) 推荐(0) 编辑
摘要:安装:pip install lxml 1、导入:from lxml import etree 2、创建对象: tree = etree.XML(xml文件) tree = etree.HTML(html文件) 等 3、找标签: tree.xpath("//book/name/text()") 4、 阅读全文
posted @ 2024-07-01 22:25 little小新 阅读(111) 评论(0) 推荐(0) 编辑
摘要:beatifulsoup的概念:Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它方便地提取页面的数据。 1、安装bs4:pip install bs4 2、使用:from bs4 import BeautifulSoup 3、创建对象:BeautifulSoup( 阅读全文
posted @ 2024-07-01 22:24 little小新 阅读(10) 评论(0) 推荐(0) 编辑
摘要:1、查找请求音乐播放的请求 url地址:以酷我音乐为例 拿到url 对url进行分析 :https://www.kuwo.cn/api/v1/www/music/playUrl?mid=326968713&type=music&httpsStatus=1&reqId=bf6ff0b0-acb0-11 阅读全文
posted @ 2024-07-01 22:24 little小新 阅读(85) 评论(0) 推荐(0) 编辑
摘要:分类: 文本类型数据:txt、csv、execl、数据库 多媒体类型:图片、音乐、视频 """ y音频存储 """ import requests headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWe 阅读全文
posted @ 2024-07-01 22:23 little小新 阅读(6) 评论(0) 推荐(0) 编辑
摘要:从哪里提取:html、json、xml 实现方式:正则、截取、xpath、css、bs4 这里使用xpath工具: ·安装:pip install lxml """ 使用xpath工具 提取网页中视频的标题 """ import requests from lxml import etree #使用 阅读全文
posted @ 2024-07-01 22:23 little小新 阅读(45) 评论(0) 推荐(0) 编辑
摘要:模拟客户端请求服务端: ·模拟请求行和请求头、请求体 """ 模拟客户端请求 获取静态数据和动态数据 使用python自己去构造请求 使用request """ """ 请求的构成: 请求行、请求头、请求体 """ ###########################静态页面加载请求的###### 阅读全文
posted @ 2024-07-01 22:22 little小新 阅读(25) 评论(0) 推荐(0) 编辑
摘要:注意这里使用的是chrom浏览器、所以要下载对应版本的chromdriver.exe工具、且放在同一文件目录下或者在电脑中设置环境变量、或者放在pycharm安装目录下的 E:\installDir\python\Scripts 路径下即可 chromedriver-120.exe from sel 阅读全文
posted @ 2024-07-01 22:22 little小新 阅读(87) 评论(0) 推荐(0) 编辑
摘要:1、官网:https://www.anaconda.com/download-success 2、一直下一步安装即可 3、打开 4、输入:jupyter notebook 打开有一个浏览器的界面 5、右上角点击new新建python3(ipykernel) 阅读全文
posted @ 2024-07-01 22:22 little小新 阅读(19) 评论(0) 推荐(0) 编辑
摘要:1、安装模块 >beautifulsoup4模块依赖于lxml模块 pip install lxml -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com pip install beautifulsoup4 -i http 阅读全文
posted @ 2024-07-01 22:21 little小新 阅读(31) 评论(0) 推荐(0) 编辑
摘要:1、封装浏览器对象 # -*- coding: utf-8 -*- """ 封装类 将获取浏览器的对象封装成一个类 调用方法: 1、import Get_Browser 2、driver = Get_Browser.Get_Browsers().get_browser() """ from sele 阅读全文
posted @ 2024-06-12 17:26 little小新 阅读(122) 评论(0) 推荐(0) 编辑
摘要:# -*- coding: utf-8 -*- #发送信息到邮箱 import email.utils import smtplib from email.mime.text import MIMEText #发送文本 from email.mime.image import MIMEImage # 阅读全文
posted @ 2024-06-12 17:22 little小新 阅读(35) 评论(0) 推荐(0) 编辑
摘要:from playwright.sync_api import Playwright, sync_playwright, expect def run(playwright: Playwright) -> None: #指定浏览器启动的端口 #打开cmd:chrome --remote-debugg 阅读全文
posted @ 2024-06-12 16:59 little小新 阅读(269) 评论(0) 推荐(0) 编辑
摘要:#-*- coding: utf-8 -*- """ 1、先手动登录获取cookie 2、获取cookie保存在taobaoCookies.pickle 文件中 3、使用cookie去请求网页 """ import os import pickle import time from selenium 阅读全文
posted @ 2024-06-12 16:58 little小新 阅读(384) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示