爬取校园新闻首页的新闻
import requests from bs4 import BeautifulSoup from datetime import datetime url = "http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get(url) res.encoding = 'utf-8' soup = BeautifulSoup(res.text, 'html.parser') a = soup.select('li') for news in a: if len(news.select('.news-list-title'))>0: t = news.select('.news-list-title')[0].text dt = news.select('.news-list-info')[0].contents[0] dd = news.select('.news-list-info')[0].contents[1].text a1 = news.select('a')[0].attrs['href'] res1 = requests.get(a1) res1.encoding = 'utf-8' soup1 = BeautifulSoup(res1.text, 'html.parser') content = soup1.select("#content")[0].text about = soup1.select('.show-info')[0].text time = about.lstrip('发布时间:')[:19] s = datetime.strftime(time,'%Y-%m-%d %H:%M:S%') now = datetime.now() type(now) now.strftime('%Y-%m-%d %H:%M:S%') if about.find('来源:')>0: origin = about[about.find('来源:'):].split()[0].lstrip('来源:') if about.find('作者:')>0: writer = about[about.find('作者:'):].split()[0].lstrip('作者:') if about.find('摄影:')>0: photograph = about[about.find('摄影:'):].split()[0].lstrip('摄影:') print(t,dt,dd,a1,now,origin,writer,photograph) str = '2018-03-30 17:10:12 ' datetime.strptime(str,'%Y-%m-%d %H:%M:%S ') print('\n',str)
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 智能桌面机器人:用.NET IoT库控制舵机并多方法播放表情
· Linux glibc自带哈希表的用例及性能测试
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
· 手把手教你在本地部署DeepSeek R1,搭建web-ui ,建议收藏!
· 新年开篇:在本地部署DeepSeek大模型实现联网增强的AI应用
· Janus Pro:DeepSeek 开源革新,多模态 AI 的未来
· 互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(三):用.NET IoT库
· 【非技术】说说2024年我都干了些啥