Python爬虫爬取ECCV Conference Papers(一)

爬取到2020年所有论文标题

代码:

复制代码
 1 import re
 2 import requests
 3 from bs4 import BeautifulSoup
 4 import lxml
 5 import traceback
 6 import time
 7 import json
 8 from lxml import etree
 9 def get_paper():
10     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/267_ECCV_2020_paper.php
11     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/283_ECCV_2020_paper.php
12     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/343_ECCV_2020_paper.php
13     url='https://www.ecva.net/papers.php'
14     headers = {
15         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
16     }
17     response=requests.get(url,headers)
18     response.encoding='utf-8'
19     page_text=response.text
20     #输出页面html
21     # print(page_text)
22     soup = BeautifulSoup(page_text,'lxml')
23     all_dt=soup.find_all('dt',class_='ptitle')
24     for dt in all_dt:
25         single_dt=str(dt)
26         single_soup=BeautifulSoup(single_dt,'lxml')
27         title=single_soup.find('a').text
28         print(title)
29     return
30 if (__name__=='__main__'):
31     get_paper()
复制代码

 

 

 

 

posted @   靠谱杨  阅读(197)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示