爬虫案例_网易云歌单

技术点:

selenium 爬数据

csv 转换数据格式

 

网易云没换爬虫策略的话代码应该是可以直接跑的

爬虫底线试了一下还是很简单的上手一天差不多可以直接爬了

案例代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
from selenium import webdriver
import time
import json
import csv
 
 
class WangyiMusicSpider():
 
    def __init__(self, url):
        self.browser = webdriver.Chrome('chromedriver')
        self.browser.get(url)
        time.sleep(2)
 
    def json_to_scv(self):
        with open("wangyimisic.json", "r", encoding="utf-8") as r:
            results = json.load(r)
        f = open('wangyimusic.csv', 'w', encoding='utf-8')
        csv_writer = csv.writer(f)
        csv_writer.writerow(results[0].keys())
        for result in results:
            csv_writer.writerow(result.values())
        f.close()
 
 
    def main(self):
     
      
        iframe_element = self.browser.find_element_by_id('g_iframe')
        # 2> 切换 iframe
        self.browser.switch_to.frame(iframe_element)
    
        data_list = self.browser.find_elements_by_xpath('.//ul[@id="m-pl-container"]/li')
 
        resuilts = []
 
        for li in data_list:
            item = {}
            
            item['photo'] = li.find_element_by_xpath('.//img').get_attribute('src')
            item['music_link'] = li.find_element_by_xpath('.//div/a').get_attribute('href')
            item['hot'] = li.find_element_by_xpath('.//span[@class="nb"]').text
            item['title'] = li.find_element_by_xpath('./p/a').text
            item['name'] = li.find_element_by_xpath('.//p[last()]/a').text
            resuilts.append(item)
            
 
        resuilts_json = json.dumps(resuilts)
        with open('wangyimisic.json', 'w', encoding='utf-8') as a:
            a.write(resuilts_json)
 
        self.json_to_scv()
 
    def quit(self):
        self.browser.quit()
 
 
if __name__ == '__main__':
    url = 'https://music.163.com/#/discover/playlist'
    obj = WangyiMusicSpider(url)
    obj.main()
    obj.quit()

  

posted @   貌似大家  阅读(195)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」
点击右上角即可分享
微信分享提示