python爬取之url管理器
class UrlManager(): #url管理器 def __init__():#设置新老url数组,分别为未爬取和已爬取 self.new_urls = set() self.old_urls = set() def add_new_url(self,url):#添加单个url if url is None or len(url) == 0: return if url in self.new_urls or url in self.old_urls: return self.new_urls.add(url) def add_new_urls(self,urls):#添加多个url if urls is None or len(urls) == 0: return for url in urls: self.add_new_url(url) def get_url(self):#得到新的url最后一位 if self.has_new_url(): url = self.new_urls.pop() self.old_urls.add(url) return url else: return Nome def has_new_url(self):#查看新url数组是否还有 return len(self.new_urls) > 0 if __name__=="__main__": url_manger = UrlManager()
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 25岁的心里话
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 一起来玩mcp_server_sqlite,让AI帮你做增删改查!!
· 零经验选手,Compose 一天开发一款小游戏!