随笔分类 - Python爬虫吧
摘要:最近疫情,被关烦了,禁足得快发霉了。然后也在学习视频剪辑,视频剪辑需要大量的背景音乐素材,总不能自己唱吧,于是想着网络上撸一些。某度了一下,什么某*fine和某*音悦试听了下,音频里都有万恶的广告,果断放弃,有时间再去撸他们的。今天某*子办公的音乐素材。找到音效配乐栏目,打开开发者工具开始查找。 随
阅读全文
摘要:网易云音乐火不火我不知道,但是网易云音乐的评论是真的火,不懂怎么会有这么多评论的人啊,想不通。之前看了很多文章是做网易云评论数据抓取并可视化的,今天我也来试着做个。随便找首歌。 爬虫部分 网易云音乐播放页面,https://music.163.com/#/song?id=1804320463,首先尝
阅读全文
摘要:无聊做爬虫。。。 1 import time 2 import requests 3 import re 4 import json 5 import os 6 7 def downLoad(): 8 filePath = './爱取的目录/' 9 if not os.path.exists(fil
阅读全文
摘要:最近疫情在家无聊得一批。爬点虎牙小姐姐的视频养养眼(前面其实有爬过,只是那时候比较懒,用的顺序爬取。)用的还有就是,自己也在做视频剪辑,将视频爬下做素材练练手。爬虫思路一般是确定数据源,然后对数据源进行分析,撸码保存。申明:本文仅做学习交流使用,如有侵权,请联系我删除。 第一种方式,还是用函数写:
阅读全文
摘要:疫情在家是真的无聊,最近发现有人分享了个某我vip音乐的接口。前面做爬虫的时候一直只能爬到免费音乐,今天来爬爬付费音乐。当然,免费的也可以这样爬。申明:本文仅做学习交流使用,如有侵权,请联系我删除。 爬虫思路: 搜索歌曲或者歌手; 分析搜索结果页,有json找json,没json找网页渲染的列表;然
阅读全文
摘要:青春有几年,疫情占三年。最近疫情它又又又又又双叒叕在某些地区有苗头了。为了配合当地疫情防控指挥部门,不给国家和社会添乱,只能在家撸撸代码,爬点表情用于群聊斗图。代码来了: 1 """ 2 疫情,它又来了,我们只能在家爬表情包 3 """ 4 5 import requests 6 import pa
阅读全文
摘要:Xpath在w3cschool有教程,传送门。Xpath是使用路径表达式来选去xml或者html的节点。常用的路径表达式如下: 下面列出了最有用的路径表达式: 表达式描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
阅读全文
摘要:雪中悍刀行在腾讯热播,做篇关于python的作业。--Python爬虫与数据分析。 分为三个部分: 第一:爬虫部分;爬虫爬评论内容和评论时间; 第二:数据处理部分;将爬下来的数据进行整理清洗以便可视化; 第三:可视化分析;对清洗好的数据进行可视化分析,对爬取的内容做一个整体的分析; 项目结构分为三个
阅读全文
摘要:面向对象保存保存数据。 1,CSV 代码: 1 """ 2 豆瓣top250四种保存方式 3 """ 4 import csv 5 import random 6 import time 7 import parsel 8 import requests 9 10 class douBanSpide
阅读全文
摘要:最近有关中国传统文化的内容频频登上热搜,就比如最近的李白之死,今天换一种方式爬取,以前爬取微博评论是网址里一大串参数,今天把参数提出来做一个字典,然后请求的时候再构造url。 1 """ 2 就爬取李白之死的评论 3 """ 4 import requests 5 import re 6 impor
阅读全文
摘要:心血来潮,爬取豆瓣电影Top250信息,几个课题记录下: 分两种数据解析方式: 第一为parsel; 第二为将html数据转换成python对象,利用xpath进行解析,对xpath进行复习,用到lxml里的etree。 数据保存方式: 第一为csv; 第二为openpyxl; 第三为pandas;
阅读全文
摘要:闲来无事,爬爬音乐: 酷我 1 import os.path 2 import pprint 3 import random 4 import time 5 from selenium import webdriver 6 from selenium.webdriver.common.by impo
阅读全文
摘要:以美团烤肉为例,将爬取的数据进行保存。 第一种:csv。 新建一个csv文档,利用字典写入器写入头,然后把爬取好的数据进行字典构造,然后将字典逐条写入到csv文档里。 1 """ 2 爬取美团烤肉 3 """ 4 import pprint 5 import csv 6 import parsel
阅读全文
摘要:过年了,爬爬看python需要什么技能才能有备无患。 大体思路: 爬所需信息 爬一爬详情页做个可视化词云,看看所需节能 做一做数据可视化 所需库: csv,保存数据用的 selenium,模拟真人访问网站,因为requests很容易被反爬 parsel和requests,可以尝试爬详情页 rando
阅读全文
摘要:11月23日,人民日报微博客户端发表 - 严禁违法失德艺人曲线复出,总共封禁了88位失德艺人,其中就包括吴某签,郑某爽,还有那个拜靖国神社的东西(这种人活着都是浪费空气,司马的无脑渣渣)。 我们来爬一下下方的评论并做个词云可视化。经年爬微博评论,那个PC端是爬到第17爷就会给咱们分发垃圾数据,所以从
阅读全文
摘要:本文仅用于学习和交流使用,不具有任何商业价值,如有问题,请与我联系,我将即时处理。 数据来源于百度地图。开发者工具就不说了,直接上代码: 1 """ 2 爬取百度地图全国火锅店并可视化 3 """ 4 import pprint 5 6 import openpyxl as op 7 import
阅读全文
摘要:本文仅用于学习和交流,不具有任何商业价值,如有问题,请与我联系,我将即时处理。 近日,《中国统计年鉴2021年》发布,公布了我国2020年的相关人口数据。据了解,去年我国的人口出生率为8.52‰,直接跌破了10‰的整数关口,创下了我国近43年来的新低。同期全国人口自然增长率(出生率-死亡率)仅为1.
阅读全文
摘要:本文仅用于学习与交流,不具有任何商业价值,如有问题,请与我联系,我将即时处理。 爬下某东数据,基于selenium。上代码: 1 """ 2 爬取某东数据并保存到csv 3 """ 4 import random 5 import time 6 7 from selenium import webd
阅读全文
摘要:本文仅用于学习和交流,不具有任何商业价值,如有问题,请与我联系,我会即时处理。--Python逐梦人。 网址分析 通过分析,没有json,只能用html解析获取数据,抓几个页面看看规律。因为要爬八大菜系,所以有横向和纵向比较。 横向: https://www.douguo.com/caipu/%E7
阅读全文
摘要:心血来潮,想看下腾讯招聘岗都有些啥要求,都需要会啥,都需要做啥。腾讯招聘传送门。 本文仅用于学习与交流使用,不具有任何商业价值,如有问题,请与我联系,我将即时处理。--Python逐梦者。 数据爬取与处理 输入要查询的岗位,比如Python。如下图: 抱着试一试的态度吧,打开开发者工具,看有没有数据
阅读全文