爬虫案例 - 随笔分类 - 小贝书屋

python-爬虫-css提取-写入csv-爬取猫眼电影榜单

摘要：猫眼有一个电影榜单top100，我们将他的榜单电影数据（电影名、主演、上映时间、豆瓣评分）抓下来保存到本地的excle中本案例使用css方式提取页面数据，所以会用到以下库 import time import requests import parsel #解析库，解析css import csv 阅读全文

posted @ 2023-04-05 19:34 小贝书屋阅读(653) 评论(0) 推荐(1)

典型的爬虫案例汇总

摘要：一、xpath：下图中，页面内容存储在页面元素中，可以使用xpath方法进行数据提取，具体事例参考下面几个链接的文字 1、https://www.cnblogs.com/becks/p/11335493.html 2、https://www.cnblogs.com/becks/p/11440333. 阅读全文

posted @ 2023-02-23 10:52 小贝书屋阅读(375) 评论(0) 推荐(0)

python-pandas提取网页内tables（表格类型）数据

摘要：比如，下面网页里大学排行的数据分析这个页面，表格内的数据是包裹在tables里的这样就可以使用pandas对数据进行提取并且导出成csv文件，具体代码很简单 import pandas as pd html='http://www.jdxzz.com/paiming/2022/0906/9664 阅读全文

posted @ 2023-02-16 10:29 小贝书屋阅读(472) 评论(0) 推荐(0)

Python爬取任意城市肯德基门店信息（json数据反序列化、提取数据、写入CSV）

摘要：本案关键内容点：json数据反序列化、提取数据、写入CSV 创建csv，写入表头数据，脚本同目录下会创建名称为book的csv文件，且第一行插入表头内容 import csv f = open('book.csv',mode='a',encoding='utf-8',newline='') #表头阅读全文

posted @ 2022-09-20 14:37 小贝书屋阅读(642) 评论(0) 推荐(0)

使用python批量爬取wallhaven.cc壁纸站壁纸

摘要：偶然发现https://wallhaven.cc/这个壁纸站的壁纸还不错，尤其是更新比较频繁，用python写个脚本爬取点latest，按照更新先后排序，获得新地址，发现地址是分页展示的，每一页24张本案例使用xpath爬虫爬取数据，先分析网页，使用浏览器查看元素工具，快速定位到图片元素所在位置阅读全文

posted @ 2022-08-26 17:25 小贝书屋阅读(1536) 评论(0) 推荐(0)

python批量下载网易云音乐文件到本地

摘要：现在听歌大多数只支持在线听，下载要钱，没网络就白搭了。好吧，用技术手段解决免费、下载、批量等一些列问题整个脚本的逻辑和流程是，把歌曲地址都存在一个txt中，然后循环每次取一条链接，分析链接对应歌曲的id和歌曲名，然后下载该歌曲，同时已歌曲名命名下载后的文件网易云音乐客户端复制音乐地址，比如上面那阅读全文

posted @ 2021-08-27 16:30 小贝书屋阅读(1501) 评论(0) 推荐(0)

python爬虫（BeautifulSoup）爬取B站视频字幕

摘要：比如“https://www.bilibili.com/video/BV1zU4y1p7L3”这个视频，有1.2万条弹幕首先，B站视频的弹幕是有专门的接口传递数据的：http://comment.bilibili.com/***.xml，中间的*号是播放视频的id，怎么获取？播放视频的时候按F1 阅读全文

posted @ 2021-03-15 22:13 小贝书屋阅读(3789) 评论(1) 推荐(1)

python爬虫（正则取数据）读取表格内的基金代码后爬取基金最新净值，同时写到对应的表格中，基于最近一次购买净值计算出涨跌幅（名字有点长）

摘要：最近基金跌的真够猛，虽说是定投，但大幅度下跌，有时候适当的增加定投数也是降低平均成本的一种方式每天去看去算太费时间，写了个爬虫，让他自动抓数据后自动计算出来吧实现逻辑： 1、创建了一个excel表格，把当前定投的基金都备注到里面、 2、脚本依次读取表格中的基金代码 3、拿到基金代码，到“天天基金阅读全文

posted @ 2021-03-08 16:38 小贝书屋阅读(994) 评论(0) 推荐(0)

python，爬取小说网站小说内容，同时每一章存在不同的txt文件中

摘要：思路，第一步小说介绍页获取章节地址，第二部访问具体章节，获取章节内容具体如下：先获取下图章节地址 def stepa(value,headers): lit=[] response = requests.get(value, headers=headers) html = etree.HTML(r 阅读全文

posted @ 2021-01-17 15:27 小贝书屋阅读(1410) 评论(0) 推荐(0)

python实例：爬取caoliu图片，同时下载到指定的文件夹内

摘要：本脚本主要实现爬取caoliu某图片板块，前3页当天更新的帖子的所有图片，同时把图片下载到对应帖子名创建的文件夹中爬虫主要通过python xpath来实现，同时脚本内包含，创建文件夹，分割数据，下载等操作首先，我们分析下caoliu某图片板块的资源链接贴子对应的页面元素展开元素，可以看到帖阅读全文

posted @ 2020-11-15 20:38 小贝书屋阅读(57441) 评论(0) 推荐(0)

python实例：从excel读取股票代码，爬取股票信息写到代码后面的单元格中

摘要：关键词：爬虫、python、request、接口、excel处理、正则思路： 1、首先准备好excel文档，把股票代码事先编辑进去。 2、脚本读取文档，依次读出股票代码到指定站点发起请求获取股票信息 3、将获取的股票信息简单处理，依次写入到指定的文档单元格中，完成整个实例过程用到的python库阅读全文

posted @ 2020-02-01 21:42 小贝书屋阅读(5338) 评论(4) 推荐(0)

python爬虫（xpath），获取某只股票的当前价格和市值

摘要：比如，我们需要实现百度某一只股票，查询出股票的当前价格和市值我们查询”600754“这只股票的当前价格和市值实现步骤如下： 1、导入request库，还需要额外导入lxml库（后面使用的到） import requests #倒入requests库 from lxml import etree 阅读全文

posted @ 2020-02-01 20:09 小贝书屋阅读(3251) 评论(0) 推荐(0)

python实例：自动爬取豆瓣读书短评，分析短评内容

摘要：思路： 1、打开书本“更多”短评，复制链接 2、脚本分析链接，通过获取短评数，计算出页码数 3、通过页码数，循环爬取当页短评 4、短评写入到txt文本 5、读取txt文本，处理文本，输出出现频率最高的词组（前X）通过分析得到其他结果可自由发散用到的库： lxml 、re、jieba、time 整阅读全文

posted @ 2019-08-31 20:32 小贝书屋阅读(1739) 评论(0) 推荐(0)

python实例：利用jieba库，分析统计金庸名著《倚天屠龙记》中人物名出现次数并排序

摘要：本实例主要用到python的jieba库首先当然是安装pip install jieba 这里比较关键的是如下几个步骤：加载文本，分析文本 txt=open("C:\\Users\\Beckham\\Desktop\\python\\倚天屠龙记.txt","r", encoding='utf-8 阅读全文

posted @ 2019-08-27 22:25 小贝书屋阅读(3110) 评论(0) 推荐(1)

python实例：某套图网站爬虫

摘要：案例一：某套图网站，套图以封面形式展现在页面，需要依次点击套图，点击广告盘链接，最后到达百度网盘展示页面。这一过程通过爬虫来实现，收集百度网盘地址和提取码，采用xpath爬虫技术 1、首先分析图片列表页，该页按照更新先后顺序暂时套图封面，查看HTML结构。每一组“li”对应一组套图。属性href 阅读全文

posted @ 2019-08-11 16:42 小贝书屋阅读(9083) 评论(0) 推荐(0)

随笔分类 - 爬虫案例

公告