python爬取之url管理器

复制代码
class UrlManager():
    #url管理器

    def __init__():#设置新老url数组,分别为未爬取和已爬取
        self.new_urls = set()
        self.old_urls = set()

    def add_new_url(self,url):#添加单个url
        if url is None or len(url) == 0:
            return
        if url in self.new_urls or url in self.old_urls:
            return
        self.new_urls.add(url)

    def add_new_urls(self,urls):#添加多个url
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def get_url(self):#得到新的url最后一位
        if self.has_new_url():
            url = self.new_urls.pop()
            self.old_urls.add(url)
            return url
        else:
            return Nome

    def has_new_url(self):#查看新url数组是否还有
        return len(self.new_urls) > 0

if __name__=="__main__":
    url_manger = UrlManager()
复制代码

 

posted @   子过杨梅  阅读(37)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 25岁的心里话
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 一起来玩mcp_server_sqlite,让AI帮你做增删改查!!
· 零经验选手,Compose 一天开发一款小游戏!
点击右上角即可分享
微信分享提示