网络爬虫练习之网络小说
1 import requests 2 import bs4 3 4 #获取网页代码 5 def gethtml(url): 6 try: 7 response = requests.get(url) 8 response.raise_for_status() 9 response.encoding = response.apparent_encoding 10 return response.text 11 except: 12 return "禁止爬取本网站" 13 14 #获取每一页中的文字 15 def chapters(url,name): 16 html = gethtml("http://www.bjkgjlu.com"+url) 17 soup = bs4.BeautifulSoup(html,'html.parser') 18 for i in soup.find_all("div",attrs={"class":"chapter_content"}): 19 with open(name+".txt","wb") as f: 20 f.write(i.text.split("<")[0].encode("utf-8")) 21 print(name+"爬取结束,并存入文件") 22 23 if __name__=="__main__": 24 url = "http://www.bjkgjlu.com/303618kyi/catalog" 25 chapter_name_list = [] 26 chapter_url_list = [] 27 html =gethtml(url) 28 soup = bs4.BeautifulSoup(html, "html.parser") 29 30 for i in soup.findAll("div", attrs={"class": "col-xs-120 col-sm-60 col-md-40 col-lg-30"}): 31 for j in i.children: 32 chapter_name_list.append(j.text) 33 chapter_url_list .append(j.get("href")) 34 print(chapter_name_list ) 35 for j in range(len(chapter_name_list)): 36 chapters(chapter_url_list[j],chapter_name_list[j] )
作者:薛定谔的ハチ公
申明:本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
分类:
网络爬虫与信息提取
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
· 从问题排查到源码分析:ActiveMQ消费端频繁日志刷屏的秘密
· 一次Java后端服务间歇性响应慢的问题排查记录
· dotnet 源代码生成器分析器入门
· ASP.NET Core 模型验证消息的本地化新姿势
· 开发的设计和重构,为开发效率服务
· 从零开始开发一个 MCP Server!
· .NET 原生驾驭 AI 新基建实战系列(一):向量数据库的应用与畅想
· Ai满嘴顺口溜,想考研?浪费我几个小时
· ThreeJs-16智慧城市项目(重磅以及未来发展ai)