摘要: 基本开发环境: ·Python3.6 ·Pycharm 相关模块使用: import requests import time 目标网页分析: 选择一个影视栏目,F12或者鼠标右键检查,打开开发者工具,选择network,下滑网页 https://haokan.baidu.com/videoui/a 阅读全文
posted @ 2021-03-16 09:05 Martina_oh 阅读(934) 评论(0) 推荐(0) 编辑
摘要: 基本开发环境 ·Python 3.6 ·Pycharm 相关模块使用 import requests import jieba import time import wordcloud 目标网页分析 爬取青灯教育免费公开课的课程评价 网站地址 https://ke.qq.com/course/384 阅读全文
posted @ 2021-03-02 09:21 Martina_oh 阅读(466) 评论(0) 推荐(0) 编辑
摘要: 基本开发环境 · Python 3.6 · Pycharm 相关模块使用 import requests import time from tkinter import * import random 目标i网页分析 首先你要登陆B站账号,然后随便点击一个直播间,这里建议先选择人气少的,弹幕少的,这 阅读全文
posted @ 2021-02-19 16:28 Martina_oh 阅读(449) 评论(0) 推荐(0) 编辑
摘要: 基本开发环境 · Python 3.6 · Pycharm 相关模块使用 爬虫模块 import requests import re import parsel import csv 词云模块 import jieba import wordcloud 目标网页分析 通过开发者工具可以看到,获取返 阅读全文
posted @ 2021-02-15 15:24 Martina_oh 阅读(1197) 评论(0) 推荐(0) 编辑
摘要: 基本开发环境 · Python 3.6 · Pycharm 相关模块使用 目标网页分析 输入想看的小说内容,点击搜索 这里会返回很多结果,我只选择第一个 网页数据是静态数据,但是要搜索,是post请求,需要提价data参数,如下图所示: 然后通过解析网站数据,获取第一个小说i的详情页url即可 静态 阅读全文
posted @ 2021-02-03 10:56 Martina_oh 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 基本开发环境 ·Python 3.6 ·Pycharm 目标网站分析 点击播放按钮,会自动跳转到音乐播放页面 播放界面有一个下载按钮,点击下载 是需要登录账号 ·打开开发者工具 ·选择network ·点击立即下载 会有一个下载的接口,post请求的数据接口,里面返回的数据有携带音频真实地址 复制u 阅读全文
posted @ 2021-01-29 11:57 Martina_oh 阅读(579) 评论(0) 推荐(0) 编辑
摘要: 基本开发环境 · Python 3.6 · Pycharm 目标网页分析 网站是静态网站,没有加密,可以直接爬取 整体思路: 1、先在列表页面获取每张壁纸的详情页地址 2、在壁纸详情页面获取壁纸真实高清url地址 3、保存地址 代码实现 模拟浏览器请请求网页,获取网页数据 这里只选择爬取前10页的数 阅读全文
posted @ 2021-01-24 16:05 Martina_oh 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 基本开发环境 ·Python 3.6 ·Pycharm 模块使用 网页分析 1.查看壁纸详情页内容 打开开发者工具就可以看到壁纸的地址以及壁纸的名字了 复制壁纸地址 详情页中的图片地址就是高清图片地址了 2.获取每张壁纸页的url 如上图所示,所有的壁纸详情页地址都包含在li标签中。 综上所述: 1 阅读全文
posted @ 2021-01-20 11:53 Martina_oh 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 获取url地址,设置headers,使用xpath对网页进行解析: 接受介绍页的url,通过xpath解析出来每一个音频的id值,标题 下载内容: 代码如下 import requests from lxml import etree import time headers = { 'authori 阅读全文
posted @ 2021-01-15 10:28 Martina_oh 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 解析网页获取到电影排名,url.评分,星级数据 代码如下: import requests from pyquery import Pyquery as pq # 这里做一个循环,因为每页都展示25部电影信息 for page in range(0, 250, 25): url = 'https:/ 阅读全文
posted @ 2021-01-14 09:04 Martina_oh 阅读(143) 评论(0) 推荐(0) 编辑