好用的wget命令从下载添加环境变量到各参数详解
本文是因为(笔者使用的windows系统)使用过好几次wget后,始终存在各种细节问题,于是下定决定细致的研究一下,并记录下其中细节。
下载与安装
第一步:下载wget,网络地址:http://downloads.sourceforge.net/gnuwin32/wget-1.11.4-1-setup.exe(这个地址传播较广,可自行搜索)
第二步:执行wget.exe安装文件,TIPS:网络上说的不能安装在C盘programes files文件夹,经笔者测试不受影响,所以可以任意选择安装位置。
第三步:找到安装后wget.exe文件所在位置,笔者在:C:\Program Files\GnuWin32\bin,将GNU_HOME = C:\Program Files\GnuWin32\bin添加到系统环境变量中,并在系统变量中再加入;%GNU_HOME%\bin(前面分号是为了隔离前面添加的变量的),而非用户环境变量,如图红框所示:
命令详解及测试
我们从最基本的开始一点点进行学习。
1.-V,--version 显示软件版本号,也可使用长参数--version,以下同,结果如下:
2.-h,--help显示软件帮助信息,可查看所有命令及使用简介,结果如图:
3.-e,--execute=COMMAND 执行一个 “.wgetrc”命令,.wgetrc命令其实是一个参数列表,wgetrc格式参见/etc/wgetrc或~/.wgetrc,直接将软件需要的参数写在一起,这个列表在C:\Program Files\GnuWin32\etc底下,这是笔者本地路径,wgetrc文件命令都是注释状态,如果要使用需先取消注释。举例为wget -e robots=off URL等同于wget --execute=robots=off URL。参考:http://www.cnblogs.com/HappyThree/archive/2013/02/04/2892413.html。wget默认会根据网站的robots.txt进行操作,使用-e robots=off参数即可绕过该限制;
4.-o,--output-file=FILE 将软件输出信息保存到文件,你不希望下载信息直接显示在终端而是在一个日志文件,可以使用该命令:
wget -o download.log URL,等同于wget --output-file=download.log URL
5.-a,--append-output=FILE将软件输出信息追加到文件,结果如下:
6.-d,--debug显示输出信息;
7.-q,--quiet 不显示输出信息;
8.-i,--input-file=FILE 从文件中取得URL,下载filelist.txt中所包含的链接的所有文件,wget -i filelist.txt,本地须有一个链接列表,必须含如http,http是这样的协议头,不然不识别,最终执行结果如下,会逐行读取文件:
9.-np, --no-parent,不追溯至父目录。
10.-t,--tries=NUMBER 是否下载次数(0表示无穷次);
11.-O --output-document=FILE 指定下载目录和文件名;
12.-nc, --no-clobber 不要覆盖已经存在的文件;当文件存在时会提示:File 'index.html' already there;not retrieving.
13.-N,--timestamping只下载比本地新的文件;
14.-T,--timeout=SECONDS 设置超时时间;
15.-Y,--proxy=on/off 关闭代理;
16.-nd --no-directories 不建立目录,若下载全站,该值不设置会默认建立以域名为名字的目录,指定则不建立目录;使用-x会强制建立服务器上一模一样的目录,如果使用-nd参数,那么服务器上下载的所有内容都会加到本地当前目录。
17.-x,--force-directories 强制建立目录,即便一个文件也会强制建立目录;
18.HTTP参数设置一些与HTTP下载有关的属性。
19.-r,--recursive 下载整个网站、目录(小心使用),防止陷入死循环,也即跟踪链接到外部网站去。
20.-l,--level=NUMBER 下载层次,防止无限循环,得在知道层次的情况下,否则可能遗漏文件:
21.-A,--accept=LIST 可以接受的文件类型,可以接受逗号;
22.-R,--reject=LIST拒绝接受的文件类型,跟上面正好相反,可以接受逗号;
23.-D,--domains=LIST可以接受的域名,用逗号分隔;
24.--exclude-domains=LIST拒绝的域名,用逗号分隔,与23相反;
25.-L,--relative 下载关联链接,指定关联的其他链接,防止无限递归。
26.--follow-ftp 只下载FTP链接,特殊需求;
27.-H,--span-hosts 可以下载外面的主机,指定对外面主机是否下载。
28.-I,--include-directories=LIST允许的目录,在知道目录结构的前提下设置可以下载的。
33.-F, --force-html 把输入文件当作HTML格式文件对待;
34.-B, --base=URL 将URL作为在-F -i参数指定的文件中出现的相对链接的前缀,意思是需要下载的目标文件中间所含的相对路径文件。
35.以下三个暂做记录,应该不太常用。
36.--bind-address=ADDRESS 指定本地使用地址(主机名或IP,当本地有多个IP或名字时使用),本地地址可通过ipconfig /all在控制台查看:
37.-c, --continue 接着下载没下载完的文件,断点续传;
38.--progress=TYPE 设定进程条标记,选择下载进度条的形式,合法的type有“dot”和“bar”(默认)两种;
39.-S, --server-response打印服务器的回应;
中断cmd正在执行的任务:按 Ctrl+C,退出cmd:exit
40.--spider 不下载任何东西;
41.-w, --wait=SECONDS 两次尝试之间间隔SECONDS秒;
42.--waitretry=SECONDS 在重新链接之间等待1...SECONDS秒;
43.--random-wait 在下载之间等待0...2*WAIT秒;
44.-Q, --quota=NUMBER 设置下载的容量限制;
55.-U, --user-agent=AGENT 设定代理的名称为 AGENT而不是 Wget/VERSION;
56.--no-http-keep-alive 关闭 HTTP活动链接 (永远链接);
57.--cookies=off 不使用 cookies;--load-cookies=FILE 在开始会话前从文件 FILE中加载cookie;--save-cookies=FILE 在会话结束后将 cookies保存到 FILE文件中
58.FTP 选项:
62.-m, --mirror 等价于 -r -N -l inf -nr;
63.-p, --page-requisites 下载显示HTML文件的所有图片;
命令好多,63个,逐一测试了一遍。留个印象,使用的时候,随用随看随取就好了。中文手册:http://dwz.cn/4QH6aM