随笔分类 -  爬虫案例

摘要:猫眼有一个电影榜单top100,我们将他的榜单电影数据(电影名、主演、上映时间、豆瓣评分)抓下来保存到本地的excle中 本案例使用css方式提取页面数据,所以会用到以下库 import time import requests import parsel #解析库,解析css import csv 阅读全文
posted @ 2023-04-05 19:34 小贝书屋 阅读(517) 评论(0) 推荐(1) 编辑
摘要:一、xpath:下图中,页面内容存储在页面元素中,可以使用xpath方法进行数据提取,具体事例参考下面几个链接的文字 1、https://www.cnblogs.com/becks/p/11335493.html 2、https://www.cnblogs.com/becks/p/11440333. 阅读全文
posted @ 2023-02-23 10:52 小贝书屋 阅读(351) 评论(0) 推荐(0) 编辑
摘要:比如,下面网页里大学排行的数据 分析这个页面,表格内的数据是包裹在tables里的 这样就可以使用pandas对数据进行提取并且导出成csv文件,具体代码很简单 import pandas as pd html='http://www.jdxzz.com/paiming/2022/0906/9664 阅读全文
posted @ 2023-02-16 10:29 小贝书屋 阅读(436) 评论(0) 推荐(0) 编辑
摘要:本案关键内容点:json数据反序列化、提取数据、写入CSV 创建csv,写入表头数据,脚本同目录下会创建名称为book的csv文件,且第一行插入表头内容 import csv f = open('book.csv',mode='a',encoding='utf-8',newline='') #表头 阅读全文
posted @ 2022-09-20 14:37 小贝书屋 阅读(568) 评论(0) 推荐(0) 编辑
摘要:偶然发现https://wallhaven.cc/这个壁纸站的壁纸还不错,尤其是更新比较频繁,用python写个脚本爬取 点latest,按照更新先后排序,获得新地址,发现地址是分页展示的,每一页24张 本案例使用xpath爬虫爬取数据,先分析网页,使用浏览器查看元素工具,快速定位到图片元素所在位置 阅读全文
posted @ 2022-08-26 17:25 小贝书屋 阅读(1385) 评论(0) 推荐(0) 编辑
摘要:现在听歌大多数只支持在线听,下载要钱,没网络就白搭了。好吧,用技术手段解决免费、下载、批量等一些列问题 整个脚本的逻辑和流程是,把歌曲地址都存在一个txt中,然后循环每次取一条链接,分析链接对应歌曲的id和歌曲名,然后下载该歌曲,同时已歌曲名命名下载后的文件 网易云音乐客户端复制音乐地址,比如上面那 阅读全文
posted @ 2021-08-27 16:30 小贝书屋 阅读(1352) 评论(0) 推荐(0) 编辑
摘要:比如“https://www.bilibili.com/video/BV1zU4y1p7L3”这个视频,有1.2万条弹幕 首先,B站视频的弹幕是有专门的接口传递数据的:http://comment.bilibili.com/***.xml,中间的*号是播放视频的id,怎么获取? 播放视频的时候按F1 阅读全文
posted @ 2021-03-15 22:13 小贝书屋 阅读(3476) 评论(1) 推荐(1) 编辑
摘要:最近基金跌的真够猛,虽说是定投,但大幅度下跌,有时候适当的增加定投数也是降低平均成本的一种方式 每天去看去算太费时间,写了个爬虫,让他自动抓数据后自动计算出来吧 实现逻辑: 1、创建了一个excel表格,把当前定投的基金都备注到里面、 2、脚本依次读取表格中的基金代码 3、拿到基金代码,到“天天基金 阅读全文
posted @ 2021-03-08 16:38 小贝书屋 阅读(901) 评论(0) 推荐(0) 编辑
摘要:思路,第一步小说介绍页获取章节地址,第二部访问具体章节,获取章节内容 具体如下:先获取下图章节地址 def stepa(value,headers): lit=[] response = requests.get(value, headers=headers) html = etree.HTML(r 阅读全文
posted @ 2021-01-17 15:27 小贝书屋 阅读(1330) 评论(0) 推荐(0) 编辑
摘要:本脚本主要实现爬取caoliu某图片板块,前3页当天更新的帖子的所有图片,同时把图片下载到对应帖子名创建的文件夹中 爬虫主要通过python xpath来实现,同时脚本内包含,创建文件夹,分割数据,下载等操作 首先,我们分析下caoliu某图片板块的资源链接 贴子对应的页面元素 展开元素,可以看到帖 阅读全文
posted @ 2020-11-15 20:38 小贝书屋 阅读(52834) 评论(0) 推荐(0) 编辑
摘要:关键词:爬虫、python、request、接口、excel处理、正则 思路: 1、首先准备好excel文档,把股票代码事先编辑进去。 2、脚本读取文档,依次读出股票代码到指定站点发起请求获取股票信息 3、将获取的股票信息简单处理,依次写入到指定的文档单元格中,完成整个实例过程 用到的python库 阅读全文
posted @ 2020-02-01 21:42 小贝书屋 阅读(5172) 评论(4) 推荐(0) 编辑
摘要:比如,我们需要实现百度某一只股票,查询出股票的当前价格和市值 我们查询”600754“这只股票的当前价格和市值 实现步骤如下: 1、导入request库,还需要额外导入lxml库(后面使用的到) import requests #倒入requests库 from lxml import etree 阅读全文
posted @ 2020-02-01 20:09 小贝书屋 阅读(2576) 评论(0) 推荐(0) 编辑
摘要:思路: 1、打开书本“更多”短评,复制链接 2、脚本分析链接,通过获取短评数,计算出页码数 3、通过页码数,循环爬取当页短评 4、短评写入到txt文本 5、读取txt文本,处理文本,输出出现频率最高的词组(前X) 通过分析得到其他结果可自由发散 用到的库: lxml 、re、jieba、time 整 阅读全文
posted @ 2019-08-31 20:32 小贝书屋 阅读(1675) 评论(0) 推荐(0) 编辑
摘要:本实例主要用到python的jieba库 首先当然是安装pip install jieba 这里比较关键的是如下几个步骤: 加载文本,分析文本 txt=open("C:\\Users\\Beckham\\Desktop\\python\\倚天屠龙记.txt","r", encoding='utf-8 阅读全文
posted @ 2019-08-27 22:25 小贝书屋 阅读(3039) 评论(0) 推荐(1) 编辑
摘要:案例一: 某套图网站,套图以封面形式展现在页面,需要依次点击套图,点击广告盘链接,最后到达百度网盘展示页面。 这一过程通过爬虫来实现,收集百度网盘地址和提取码,采用xpath爬虫技术 1、首先分析图片列表页,该页按照更新先后顺序暂时套图封面,查看HTML结构。每一组“li”对应一组套图。属性href 阅读全文
posted @ 2019-08-11 16:42 小贝书屋 阅读(8983) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示