摘要: 在遍历型的网络爬虫中。 参考宽度优先遍历 http://www.cnblogs.com/LexMoon/p/javaMyClawler.html 网络爬虫在遍历抓取一张网页的链接时,会出现的情况。 1 .链接本身可能是一个无限循环,以至于白白的消耗资源。 2 .看似不同的链接却指向同一个网页。(动态 阅读全文
posted @ 2017-12-26 16:15 AntzUhl 阅读(509) 评论(0) 推荐(1) 编辑
摘要: python中对文件、文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块。 得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd() 返回指定目录下的所有文件和目录名:os.listdir() 函数用来删除一个文件:os.remove() 删除多个目录:os.r 阅读全文
posted @ 2017-12-26 00:06 AntzUhl 阅读(583) 评论(0) 推荐(0) 编辑