摘要:
现在比较喜欢阅读HTML的电子书,PDF中往回跳转不是很方便,并且PDF阅读器都很臃肿,对于不需要添加脚注等特殊需求的电子书,HTML应该是首选了,只需要浏览器就能浏览,而且速度很快。Linux下的wget可谓是网站镜像的利器,在~/.bashrc中做了一个别名,alias getsite='wget -r -k -p -np',这样见到网上好的电子书时,只需要:getsite http://url/to/html/book即可。 但是今天碰到一个网站,用浏览器可以打开,但是wget就立刻返回403。一开始还以为是robots.txt文件限制了wget,但是增加robotx=o 阅读全文