Python 爬虫-豆瓣读书
import requests from bs4 import BeautifulSoup def parse_html(num): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } response = requests.get(f'https://book.douban.com/top250?start={num}', headers=headers) soup = BeautifulSoup(response.text, 'lxml') # 书名 all_div = soup.find_all('div', class_='pl2') book_names = [div.find('a')['title'] for div in all_div] # 图书信息 all_p = soup.find_all('p', class_='pl') book_infos = [p.get_text() for p in all_p] # 评分 all_span = soup.find_all('span', class_='rating_nums') book_rates = [span.get_text() for span in all_span] # 简介 all_quote = soup.find_all('span', class_='inq') book_inqs = [quote.get_text() for quote in all_quote] d = '' # 组合 for name, info, rate, inq in zip(book_names, book_infos, book_rates, book_inqs): d = f'{d}书名:{name}\n作者:{info}\n评分:{rate}\n简介:{inq}\n=======================\n' return d if __name__ == '__main__': data = '' for i in range(0, 250, 25): data = f'{data}{parse_html(i)}' filename = '豆瓣图书Top250.txt' with open(filename, 'w', encoding='utf-8') as f: f.write(data)
分类:
Python实例
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 现代计算机视觉入门之:什么是图片特征编码
· .NET 9 new features-C#13新的锁类型和语义
· Linux系统下SQL Server数据库镜像配置全流程详解
· 现代计算机视觉入门之:什么是视频
· 你所不知道的 C/C++ 宏知识
· 【译】我们最喜欢的2024年的 Visual Studio 新功能
· 个人数据保全计划:从印象笔记迁移到joplin
· Vue3.5常用特性整理
· 重拾 SSH:从基础到安全加固
· 并发编程 - 线程同步(一)