随笔分类 -  爬虫实战

一些爬虫项目
摘要:爬虫实战(十):发送每日新闻 一、 简介 1、 概述 关注时事新闻,是新时代青年必须做的,那么,我们如何来快速获取新闻呢? 每天自动从网上找到新闻 自动整理新闻排版成一个html页面,发送到邮箱中 2、 环境配置 requests = "*" # 用来解析数据 fake-useragent = "* 阅读全文
posted @ 2022-07-12 17:14 Kenny_LZK 阅读(253) 评论(0) 推荐(1) 编辑
摘要:爬虫实战(九):爬微博评论 一、 网站分析 1、 页面分析 安倍jj了,那就让我们来看一看大家对此的评价如何?并且做词云 我们对这条微博的评论进行爬取 首先,还是先分析一下评论数据吧: 通过源码分析,我们发现,微博的评论数据是动态加载出来的,所以我们要进行抓包分析,最后,我们找到了一个,名为buil 阅读全文
posted @ 2022-07-08 22:07 Kenny_LZK 阅读(5160) 评论(6) 推荐(1) 编辑
摘要:爬虫实战(八):爬取表情包 一、 网站分析 1、 需求分析 在QQ斗图中,为什么有些人总有斗不完的图,今天,这里有了这个斗图小程序,终于可以告别斗图斗不赢的痛了。 这里,我们需要对发表情网站进行全站数据的爬取,让您拥有许许多多的表情包 2、 页面分析 通过抓包分析,我们发现,页面链接数据都在页面中, 阅读全文
posted @ 2022-07-07 21:59 Kenny_LZK 阅读(337) 评论(0) 推荐(0) 编辑
摘要:爬虫实战(七):爬王者英雄图片 一、 网站分析 1、 页面分析 我们对王者荣耀英雄界面分析,发现,其数据并不是存储在源码中的,那么其不是静态网址,我们不能通过直接获取源码来获取数据 通过F12抓包可以得到一个和页面链接同名的json文件,里面存储了许多的乱码信息,通过编码utf-8,可以看出,这个J 阅读全文
posted @ 2022-07-07 16:07 Kenny_LZK 阅读(256) 评论(0) 推荐(0) 编辑
摘要:爬虫实战(六):爬笔趣阁 一、 网站分析 1、 页面分析 通过抓包分析可以得到,该网站为静态网站,所有信息都保存在页面源码中,可以直接从页面源码获取信息。 在目录中,发现其全部存储在一个dl的标签中 在搜索目录中,搜索内容存储在一个列表中,我们可以通过获取列表的长度来知道是否查找到了结果;如果没有搜 阅读全文
posted @ 2022-07-06 17:51 Kenny_LZK 阅读(991) 评论(0) 推荐(0) 编辑
摘要:爬虫实战(五):爬豆瓣top250 一、网址分析 1、 页面分析 通过抓包分析,可得数据不是动态加载出来的,而是静态页面,故我们可以直接发送请求到页面,就可以获得数据了 2、 源码分析 通过F12调试工具可以得到页面数据,即,该页面的数据,存储在一个类名为grid_view的ol标签里面,同时该类名 阅读全文
posted @ 2022-07-06 12:55 Kenny_LZK 阅读(235) 评论(0) 推荐(0) 编辑
摘要:优美图库 一、 网址分析 打开网址里面对应的美女图片专栏通过分析工具可得: 由此可得,图片导航所对应的 url ,都存在一个 li 标签里面 点开其中一个页面 同时分析每一个页面的地址可得 https://www.umeitu.com/meinvtupian/meinvxiezhen/243450. 阅读全文
posted @ 2022-03-15 21:33 Kenny_LZK 阅读(506) 评论(0) 推荐(0) 编辑
摘要:爬淘宝商品数据 免责声明:本文所记录的技术手段及实现过程,仅作为爬虫技术学习使用,不对任何人完全或部分地依据本文的全部或部分内容从事的任何事情和因其任何作为或不作为造成的后果承担任何责任 一、 简介 于近年来淘宝的反爬措施逐渐完善,爬取难度变大,在爬取时必须要登录之后才能查看相关的商品信息,淘宝数据 阅读全文
posted @ 2022-03-05 22:18 Kenny_LZK 阅读(2913) 评论(0) 推荐(0) 编辑
摘要:分析网页 通过浏览器抓包可得 通过JS逆向可以得到 利用Python模拟加密 word = input("请输入要翻译的单词") # 时间戳 import time ts = r = str(int(time.time() * 1000)) import random salt = i = r + 阅读全文
posted @ 2022-01-30 16:02 Kenny_LZK 阅读(106) 评论(0) 推荐(0) 编辑
摘要:前言 此方法仅供学习爬虫,切勿用在其他途径 要使用的库 模块 import requests, os, time, loguru import pandas as pd from concurrent.futures import ThreadPoolExecutor 分析 搜索分析 首先,我们搜索 阅读全文
posted @ 2022-01-19 12:22 Kenny_LZK 阅读(1304) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示