摘要:
在遍历型的网络爬虫中。 参考宽度优先遍历 http://www.cnblogs.com/LexMoon/p/javaMyClawler.html 网络爬虫在遍历抓取一张网页的链接时,会出现的情况。 1 .链接本身可能是一个无限循环,以至于白白的消耗资源。 2 .看似不同的链接却指向同一个网页。(动态 阅读全文
摘要:
python中对文件、文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块。 得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd() 返回指定目录下的所有文件和目录名:os.listdir() 函数用来删除一个文件:os.remove() 删除多个目录:os.r 阅读全文